狠狠撸

狠狠撸Share a Scribd company logo
徐 立元(東京大学 杉山?佐藤?本多研)
第9回最先端 勉強会
徐 立元
概要
をベクトルの点ではなく分布で考えようと言う論文。
多峰性の分布( )を仮定することにより多義語に対応
させたのが最大の貢献。
実験により、既存のアルゴリズムよりも性能が高くなっている事を示し
た。
徐 立元
先行研究
言わずと知れた の論文
単語とベクトルを一対一対応(点推定)
意味の広がり( )をモデリングできない
多義語を区別できないという弱点が有った。
徐 立元
先行研究
単語を一つの正規分布に対応させる
正規分布の分散で が表現される。
単語を複数のベクトルに対応させる。
意味が複数ある時、それぞれに対応したベクトルが生成される。
徐 立元
研究の立ち位置
点推定 分布推定
多義語未対応
多義語対応 本研究
徐 立元
研究の立ち位置
上が本研究、下が
徐 立元
単語 に対応する分布 を
( ) =
=1
, N[ ; ? , , Σ , ]
とモデリング。ここで、 が意味の数で
=1
, = 1
である。いま、分散共分散行列を対角行列と仮定している。
徐 立元
単語 , に対応する分布をそれぞれ と とする。
( ) = =1 N[ ; ? , , Σ , ]
( ) = =1 N[ ; ? , , Σ , ]
この時、 と の を
θ( , ) = ( ) ( )
により定義する。これは の場合、
θ( , ) =
=1 =1
ξ
である。ξ は論文を参照。
徐 立元
目的関数
単語 の周辺の単語を , した単語を ′ とし
て
θ( , , ′
) = (0, + ( , ′
) ? ( , ))
を最小化する。
この際、 の単語 と の単語 , ′ で異なる分布を用いる。
徐 立元
学習の工夫
単語 を選ぶ際に確率 ( ) = 1 ? / ( ) で選び直す。
単語 ′ を選ぶときには全単語の中から
( ′
) ∝ { ( ′
)}
3
4
の確率で選ぶ。
どちらも の影響を減らすことが目的
徐 立元
単語の類似度
( , ) = ( ) ( )
( , ) =
, =1...
??
, ? ,
∥? , ∥∥? , ∥
( , ) =
, =1...
∥? , ? ? , ∥
徐 立元
学習結果の一例
による最も近い単語。
上が本研究、下が
徐 立元
実験1
アルゴリズム:
本研究
類似度:
徐 立元
実験2
徐 立元
実験3
単語 1 と 2 について、「 1 ならば 2」を 1 | 2 と書くことにする。
| ?|
単語二つが与えられた時に、| か ?| かを判定するタスクを考える。
徐 立元
実験3
タスクの結果。 内の数字は
が よりも高性能
徐 立元
感想
(論文全体として)やるべきことをしっかりとやったと言う印象。
実際に言語のタスクに対する特徴量として用いるためにはどうすれば
よいか気になる。
分散の情報がどれくらい役に立つのか気になる。
辞書データ等から単語の意味の数を取ればより精度が上がるかもしれ
ない。
徐 立元

More Related Content

Multimodal Word Distributions