狠狠撸

狠狠撸Share a Scribd company logo
Copyright@2014 NTT DATA Mathematical Systems Inc. 
Skip-gram について 
1 
2014/11/21 
白川 達也 sirakawa@msi.co.jp
Copyright@2014 NTT DATA Mathematical Systems Inc. 
2 
king – man + woman = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
3 
king – man + woman = queen …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
4 
walked – walk + run = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
5 
walked – walk + run = ran …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
6 
france – paris + japan = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
7 
france – paris + japan = tokyo …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
8 
人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
9 
Skip-gram モデル(+ Noise Sampling) 
?T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 
?Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 ? に 割り当てられたベクタが ?? )。 
?コーパスで共起する単語ペア(?,?~??)は、ベクタの内積が大きく なるようにします。 
?コーパスの?倍の個数の単語ペア(?,?~??)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 
Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)
Copyright@2014 NTT DATA Mathematical Systems Inc. 
10 
共起しやすい ?ベクタの内積が大きい 
mathematics 
physics 
tokyo
Copyright@2014 NTT DATA Mathematical Systems Inc. 
11 
Linear Regularity 
?Skip-gram で学習された単語のベクタ( ?? )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
12 
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
13 
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
14 
語の相対的な位置関係は言語非依存(?) 
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
Copyright@2014 NTT DATA Mathematical Systems Inc. 
15 
Skip-gram = PMI行列の行列分解 
?最近、?=1,??(?,?)=?????? (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 
?O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 
Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????) 
? 
? 
Pointwise Mutual Information 
????,?=log ???,? ?????(?) 
PMI行列
Copyright@2014 NTT DATA Mathematical Systems Inc. 
16 
証明 
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 
(証明) ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?) = ???,?log??,?;?+????,?log1???,?;? ?(?,?) ですが、?log?+?log1??は?=?/(?+?)で唯一の最大値をとるので、 ?(?) を最大化すると、下記へ収束します。 ??,?;?= ???,? ???,?+???(?,?) =??log ???,? ????,? ??,?;?=??????と比べると ?????=log ???,? ????,? 
を得ます。よって、?=1,??=?????? の場合には、PMI行列の分解 になります。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
17 
Linear Regularity 再考 
?PMI行列の分解であることを想定すると、 のような関係は、任意の語 ? にたいして、 という関係を与えることがわかります。実際、 ????????=??????????? ?? ???????????????+?????=0 ?????,?????????,????????,?????+????,?????=0 ここで最後の式の左辺を計算すると log ?????? ????? ∕ ??????? ??????? =0 なので、上記関係を得ます。 
????????=??????????? (?????を????などと略記) 
?????? ????? = ??????? ??????? ????? ???= ??? ??
Copyright@2014 NTT DATA Mathematical Systems Inc. 
18 
??|? 
? 
? 
?(?,?) 
?(?) 
計 
? 
? 
??? 
1 
計 
行を正規化 
同時確率 
??|? は同時確率 ?(?,?) 
から語自身の出現確率 ?(?)の効果を除いたもの
Copyright@2014 NTT DATA Mathematical Systems Inc. 
19 
Linear Regularity 
????????=???????????? ?????? ????? = ??????? ??????? 
1 
1 
1 
1 
? 
? 
? 
? 
? 
ここの比が常に等しい 
????∶ ???=?????∶ ????? 
king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
20 
逆向きは成り立つか 
?左側の等式が成り立っていれば、すべての語 ? にたいして ????,??????,??????,?+????,?=0 が成り立つので、 ? ?? ?? ??+?=0 ??? ??? ? となります。このことから、 ? 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 ? ?? =??? となることも導かれます。 
QAvQav= ??? ??? ?? ?? =??? ?

More Related Content

What's hot (20)

[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
?
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
?
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
?
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
Deep Learning JP
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
?
时系列问题に対する颁狈狈の有用性検証
时系列问题に対する颁狈狈の有用性検証时系列问题に対する颁狈狈の有用性検証
时系列问题に対する颁狈狈の有用性検証
Masaharu Kinoshita
?
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
?
最适输送の计算アルゴリズムの研究动向
最适输送の计算アルゴリズムの研究动向最适输送の计算アルゴリズムの研究动向
最适输送の计算アルゴリズムの研究动向
ohken
?
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
?
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめにDeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
Deep Learning JP
?
学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)
Nobuyuki Umetani
?
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
?
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
?
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
?
フ?ースティンク?入门
フ?ースティンク?入门フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
?
工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方
ychtanaka
?
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
?
强化学习その3
强化学习その3强化学习その3
强化学习その3
nishio
?
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
?
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
?
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
?
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
Deep Learning JP
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
?
时系列问题に対する颁狈狈の有用性検証
时系列问题に対する颁狈狈の有用性検証时系列问题に対する颁狈狈の有用性検証
时系列问题に対する颁狈狈の有用性検証
Masaharu Kinoshita
?
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
?
最适输送の计算アルゴリズムの研究动向
最适输送の计算アルゴリズムの研究动向最适输送の计算アルゴリズムの研究动向
最适输送の计算アルゴリズムの研究动向
ohken
?
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
?
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめにDeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
Deep Learning JP
?
学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)学位論文の書き方メモ (Tips for writing thesis)
学位論文の書き方メモ (Tips for writing thesis)
Nobuyuki Umetani
?
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
?
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
?
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
?
フ?ースティンク?入门
フ?ースティンク?入门フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
?
工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方
ychtanaka
?
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
?
强化学习その3
强化学习その3强化学习その3
强化学习その3
nishio
?

Similar to Skip gram shirakawa_20141121 (20)

ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
Kensuke Otsuki
?
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
Akira Taniguchi
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
Yuya Unno
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
Yuya Unno
?
深層ニューラルネットワーク による知識の自動獲得?推論
深層ニューラルネットワークによる知識の自動獲得?推論深層ニューラルネットワークによる知識の自動獲得?推論
深層ニューラルネットワーク による知識の自動獲得?推論
Naoaki Okazaki
?
ワークショップ「ゲーム开発チームにおけるパトレット」
ワークショップ「ゲーム开発チームにおけるパトレット」ワークショップ「ゲーム开発チームにおけるパトレット」
ワークショップ「ゲーム开発チームにおけるパトレット」
Masaru Nagaku
?
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
?
Interop2017
Interop2017Interop2017
Interop2017
tak9029
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
翱颁搁は古い技术
翱颁搁は古い技术翱颁搁は古い技术
翱颁搁は古い技术
Koji Kobayashi
?
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
Preferred Networks
?
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
?
TDA やら Night!!
TDA やら Night!!TDA やら Night!!
TDA やら Night!!
Tatsuki SHIMIZU
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
Sho Takase
?
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
DMM.com
?
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
Preferred Networks
?
大规模な组合せ最适化问题に対する発见的解法
大规模な组合せ最适化问题に対する発见的解法大规模な组合せ最适化问题に対する発见的解法
大规模な组合せ最适化问题に対する発见的解法
Shunji Umetani
?
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
Shinagawa Seitaro
?
大规模言语モデルと颁丑补迟骋笔罢
大规模言语モデルと颁丑补迟骋笔罢大规模言语モデルと颁丑补迟骋笔罢
大规模言语モデルと颁丑补迟骋笔罢
nlab_utokyo
?
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
Kensuke Otsuki
?
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
Akira Taniguchi
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞奥别产尘颈苍颈苍驳#17
Yuya Unno
?
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
闯耻产补迟耻蝉のリアルタイム分散レコメンデーション蔼罢辞办测辞狈尝笔#9
Yuya Unno
?
深層ニューラルネットワーク による知識の自動獲得?推論
深層ニューラルネットワークによる知識の自動獲得?推論深層ニューラルネットワークによる知識の自動獲得?推論
深層ニューラルネットワーク による知識の自動獲得?推論
Naoaki Okazaki
?
ワークショップ「ゲーム开発チームにおけるパトレット」
ワークショップ「ゲーム开発チームにおけるパトレット」ワークショップ「ゲーム开発チームにおけるパトレット」
ワークショップ「ゲーム开発チームにおけるパトレット」
Masaru Nagaku
?
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
?
Interop2017
Interop2017Interop2017
Interop2017
tak9029
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
Preferred Networks
?
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
?
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
闯耻产补迟耻蝉の绍介蔼第6回さくさくテキストマイニング
Yuya Unno
?
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
マイクロサーヒ?ス时代の动画配信基搁耻产测×驳辞=∞
DMM.com
?
大规模な组合せ最适化问题に対する発见的解法
大规模な组合せ最适化问题に対する発见的解法大规模な组合せ最适化问题に対する発见的解法
大规模な组合せ最适化问题に対する発见的解法
Shunji Umetani
?
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会?関西 Generating Informative and Diverse Conversational Responses v...
Shinagawa Seitaro
?
大规模言语モデルと颁丑补迟骋笔罢
大规模言语モデルと颁丑补迟骋笔罢大规模言语モデルと颁丑补迟骋笔罢
大规模言语モデルと颁丑补迟骋笔罢
nlab_utokyo
?

Skip gram shirakawa_20141121

  • 1. Copyright@2014 NTT DATA Mathematical Systems Inc. Skip-gram について 1 2014/11/21 白川 達也 sirakawa@msi.co.jp
  • 2. Copyright@2014 NTT DATA Mathematical Systems Inc. 2 king – man + woman = ?
  • 3. Copyright@2014 NTT DATA Mathematical Systems Inc. 3 king – man + woman = queen …ですよね?
  • 4. Copyright@2014 NTT DATA Mathematical Systems Inc. 4 walked – walk + run = ?
  • 5. Copyright@2014 NTT DATA Mathematical Systems Inc. 5 walked – walk + run = ran …ですよね?
  • 6. Copyright@2014 NTT DATA Mathematical Systems Inc. 6 france – paris + japan = ?
  • 7. Copyright@2014 NTT DATA Mathematical Systems Inc. 7 france – paris + japan = tokyo …ですよね?
  • 8. Copyright@2014 NTT DATA Mathematical Systems Inc. 8 人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
  • 9. Copyright@2014 NTT DATA Mathematical Systems Inc. 9 Skip-gram モデル(+ Noise Sampling) ?T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 ?Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 ? に 割り当てられたベクタが ?? )。 ?コーパスで共起する単語ペア(?,?~??)は、ベクタの内積が大きく なるようにします。 ?コーパスの?倍の個数の単語ペア(?,?~??)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????)
  • 10. Copyright@2014 NTT DATA Mathematical Systems Inc. 10 共起しやすい ?ベクタの内積が大きい mathematics physics tokyo
  • 11. Copyright@2014 NTT DATA Mathematical Systems Inc. 11 Linear Regularity ?Skip-gram で学習された単語のベクタ( ?? )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
  • 12. Copyright@2014 NTT DATA Mathematical Systems Inc. 12 T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
  • 13. Copyright@2014 NTT DATA Mathematical Systems Inc. 13 T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
  • 14. Copyright@2014 NTT DATA Mathematical Systems Inc. 14 語の相対的な位置関係は言語非依存(?) T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
  • 15. Copyright@2014 NTT DATA Mathematical Systems Inc. 15 Skip-gram = PMI行列の行列分解 ?最近、?=1,??(?,?)=?????? (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 ?O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 Skip-gram (+NS) maximize ? ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?), ????? ??,?;?=?????? ??????? = 11+exp (??????) ? ? Pointwise Mutual Information ????,?=log ???,? ?????(?) PMI行列
  • 16. Copyright@2014 NTT DATA Mathematical Systems Inc. 16 証明 下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 (証明) ?(?)=??,?~??[log?(?,?;?)]+???,?~??log(1??(?,?;?) = ???,?log??,?;?+????,?log1???,?;? ?(?,?) ですが、?log?+?log1??は?=?/(?+?)で唯一の最大値をとるので、 ?(?) を最大化すると、下記へ収束します。 ??,?;?= ???,? ???,?+???(?,?) =??log ???,? ????,? ??,?;?=??????と比べると ?????=log ???,? ????,? を得ます。よって、?=1,??=?????? の場合には、PMI行列の分解 になります。
  • 17. Copyright@2014 NTT DATA Mathematical Systems Inc. 17 Linear Regularity 再考 ?PMI行列の分解であることを想定すると、 のような関係は、任意の語 ? にたいして、 という関係を与えることがわかります。実際、 ????????=??????????? ?? ???????????????+?????=0 ?????,?????????,????????,?????+????,?????=0 ここで最後の式の左辺を計算すると log ?????? ????? ∕ ??????? ??????? =0 なので、上記関係を得ます。 ????????=??????????? (?????を????などと略記) ?????? ????? = ??????? ??????? ????? ???= ??? ??
  • 18. Copyright@2014 NTT DATA Mathematical Systems Inc. 18 ??|? ? ? ?(?,?) ?(?) 計 ? ? ??? 1 計 行を正規化 同時確率 ??|? は同時確率 ?(?,?) から語自身の出現確率 ?(?)の効果を除いたもの
  • 19. Copyright@2014 NTT DATA Mathematical Systems Inc. 19 Linear Regularity ????????=???????????? ?????? ????? = ??????? ??????? 1 1 1 1 ? ? ? ? ? ここの比が常に等しい ????∶ ???=?????∶ ????? king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
  • 20. Copyright@2014 NTT DATA Mathematical Systems Inc. 20 逆向きは成り立つか ?左側の等式が成り立っていれば、すべての語 ? にたいして ????,??????,??????,?+????,?=0 が成り立つので、 ? ?? ?? ??+?=0 ??? ??? ? となります。このことから、 ? 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 ? ?? =??? となることも導かれます。 QAvQav= ??? ??? ?? ?? =??? ?