狠狠撸

Copyright@2014 NTT DATA Mathematical Systems Inc.
Skip-gram について
1
2014/11/21
白川達也 sirakawa@msi.co.jp

2
king – man + woman = ?

3
king – man + woman = queen …ですよね？

4
walked – walk + run = ?

5
walked – walk + run = ran …ですよね？

6
france – paris + japan = ?

7
france – paris + japan = tokyo …ですよね？

8
人間はアナロジー関係を適切にとらえることができます。 Skip-gramに代表される言語モデルの進化により、このようなアナロジー関係をある程度機械的に計算できるようになりました。

9
Skip-gram モデル（+ Noise Sampling）
?T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013
?Skip-gram モデルは、単語に同じ次元のベクタを割り当てます（語 ? に割り当てられたベクタが ?? ）。
?コーパスで共起する単語ペア（?,?～??）は、ベクタの内積が大きくなるようにします。
?コーパスの?倍の個数の単語ペア（?,?～??）を別途作成しますが、それらの単語ペアのベクタの内積は小さくなるようにします。
Skip-gram (+NS) maximize ? ?(?)=??,?～??[log?(?,?;?)]+???,?～??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)

10
共起しやすい ?ベクタの内積が大きい
mathematics
physics
tokyo

11
Linear Regularity
?Skip-gram で学習された単語のベクタ（ ?? ）を使って、意味や統語の線形計算ができることが実験的に確認されています。
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013

12
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013

13
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013

14
語の相対的な位置関係は言語非依存（？）
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168

15
Skip-gram = PMI行列の行列分解
?最近、?=1,??(?,?)=?????? （ユニグラム分布の積）ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。
?O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014
Skip-gram (+NS) maximize ? ?(?)=??,?～??[log?(?,?;?)]+???,?～??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)
?
?
Pointwise Mutual Information
????,?=log ???,? ?????(?)
PMI行列

16
証明
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014
（証明） ?(?)=??,?～??[log?(?,?;?)]+???,?～??log(1??(?,?;?) = ???,?log??,?;?+????,?log1???,?;? ?(?,?) ですが、?log?+?log1??は?=?/(?+?)で唯一の最大値をとるので、 ?(?) を最大化すると、下記へ収束します。 ??,?;?= ???,? ???,?+???(?,?) =??log ???,? ????,? ??,?;?=??????と比べると ?????=log ???,? ????,?
を得ます。よって、?=1,??=?????? の場合には、PMI行列の分解になります。

17
Linear Regularity 再考
?PMI行列の分解であることを想定すると、のような関係は、任意の語 ? にたいして、という関係を与えることがわかります。実際、 ????????=??????????? ?? ???????????????+?????=0 ?????,?????????,????????,?????+????,?????=0 ここで最後の式の左辺を計算すると log ?????? ????? ∕ ??????? ??????? =0 なので、上記関係を得ます。
????????=??????????? （?????を????などと略記）
?????? ????? = ??????? ??????? ????? ???= ??? ??

18
??|?
?
?
?(?,?)
?(?)
計
?
?
???
1
計
行を正規化
同時確率
??|? は同時確率 ?(?,?)
から語自身の出現確率 ?(?)の効果を除いたもの

19
Linear Regularity
????????=???????????? ?????? ????? = ??????? ???????
1
1
1
1
?
?
?
?
?
ここの比が常に等しい
????∶ ???=?????∶ ?????
king, man, queen, woman 固有の出現確率を無視すると、どんな語に対しても、その語の周辺に「 man に比べて king がどれくらい出やすいか」は、「woman に比べて queen がどれくらい出やすいか」と等しい。

20
逆向きは成り立つか
?左側の等式が成り立っていれば、すべての語 ? にたいして ????,??????,??????,?+????,?=0 が成り立つので、 ? ?? ?? ??+?=0 ??? ??? ? となります。このことから、 ? 全体が張る空間が豊かな場合（詳しくは、この空間の次元が分散表現の次元と一致する場合）、 ? ?? =??? となることも導かれます。
QAvQav= ??? ??? ?? ?? =??? ?

狠狠撸

Skip gram shirakawa_20141121

Recommended

More Related Content

What's hot (20)

Similar to Skip gram shirakawa_20141121 (20)

Skip gram shirakawa_20141121