際際滷

際際滷Share a Scribd company logo
Word2vec 

NLP危
Fairies( Adonis Han)
NLP危危蠍
 企至 螳 企ゼ 覯″壱伎 螳?  
 覓語螳 蟯蟇
  CBOW Skip-gram 企朱 ろ豎
襦 れ 覯 覦  word2vec 覈
襦 伎伎蟆 .
NLP危危蠍
one-hot
encoding
 NLP one-hot encoding 覦 襷 .
襯 れ, 願 企 企れ 讌  
 n螳讌襴  (Dictionary) り 企慨.
 , 企 企ゼ 蠍 伎 蠍語 n讌襴
覯″磯ゼ  襷り, 蠏 願 企豪 襴
1 j 襾語 襴れ 0 k 蟆企. 
 [螳, 瑚鍵, 螻, 覦] 企朱 螻朱ゼ 
 覯″磯 [0, 0, 1, 0]   企.
NLP危危蠍
one-hot
encoding
 誤螻 覈 螳 企ゼ 危(token) 覯
壱  覯″ 螻糾(word space) 螳 
襯 (represent) 覲  . N谿(N-
dimensional)螻糾 螳 企 覩碁ゼ 螳
蟆企. 蠏 れ, 磯Μ 螳 企ゼ one-hot
vector襦 企骸  . Vector 蠍磯
磯Μ螳 螳讌 危 襷 襷 蟆企. 蠏碁Μ
螻 one-hot vector覦朱  螳 企
 襴暑 螳豌(entity)襦  蟆企.
NLP危危蠍
one-hot
encoding
One-hot vector覦朱  螳 煙
谿場  .
覦燕磯ゼ 伎覃 0 り鍵 覓語企. 誤螻
覈 螳, 覩語 煙 覦蟆 螳
.
願屋覦
伎 覦燕郁概螳蠍磯ゼ
譴 螳 .
螳 伎 蟯螻襯 覦蟆 
 覦レ朱 螻糾
 覦覯 .
Word Embeddings
轟 願 覓語 伎 譯朱 蟷 煙ロ 螳 企ゼ dense vector襦  伎 企れ
伎 蠏 覩碁ゼ 豸″ 螳.
Word vector 蟯 譴  w(t) 蠏 譯朱(context words)伎 譴 伎
覩碁ゼ 豸″.
 語 襷覘豺(corpus) 襷 豺襯 螳螻  t襯 誤  . 企襦 覓語
 vector 豺 讌.
企ゼ 覦燕磯   (loss)豕 蟆 蟯.
Word2Vec
word2vec 2013 蟲蠍 覦 郁規襦, Tomas Mikolov朱  襦 
 郁規れ 覈 襷 Continuous Word Embedding  覈企. 覦 
,  朱語 讌  譴 Jeffery Dean (蟲蠍 れ 襦蠏碁襾碁
MapReduce煙 襷)  る 企.  覈語 蠍一ヾ Neural Net 蠍磯 給逢覯
 觜 蟆 殊 蟆 讌襷, 螻磯 豌蟆 譴 蠍一ヾ 覦覯 觜
覈 覦 伎 觜襯 旧 螳レ   螳 襷 企れ  Word
Embedding 覈語 .
Word2Vec
 覈 企ゼ vector襦   伎 炎骸 谿伎
螻壱. 螻磯 蟆郁骸襯 覦朱 蠏 譯朱(context word)
 蟯螻襯 牛 願 (representation) 覦襯 讌朱
豸″ 蟆企.
螻襴讀
Skip-gram(SG)  蟆 企ゼ 伎 譯朱(context
words)襯 豸
Continuous Bag of Words(CBOW)  譯朱企ゼ 伎
蟆 企ゼ 豸
CBOW(Continuous
Bag-of-Words)
 蠍一ヾ 郁規り骸 襴,  郁規
 旧 り鍵  ろ
 覈語  螳讌 
.  螳讌
CBOW(Continuous Bag-of-
Words) 覈語願, るジ 
Skip-gram 覈語企.
CBOW(Continuous
Bag-of-Words)
 CBOW 覈語 蟆 Input Layer,
Projection Layer, Output Layer襦
企伎 . 蠏碁殊 譴螳 
伎願 Hidden Layer手 
 蠍磯 讌襷, Input 譴
螳 伎企 螳 螻殊 weight
襯 螻燕伎朱 蟆企手鍵 覲企る 
 Projection 螻殊 螳蟾
磯襦 Projection Layer朱 企
   蟆 螳.
CBOW(Continuous
Bag-of-Words)
 Input Layer Projection
Layer襦 螳  覈 企れ
螻牛旧朱  VxN 
蠍一 Projection Matrix W螳 
螻 (N Projection Layer 蠍
 =  覯″一 蠍語),
Projection Layer Output
Layer襦 螳  NxV 蠍一
Weight Matrix W 螳 .
CBOW(Continuous
Bag-of-Words)
 Input NNLM 覈瑚骸 螳
 企ゼ one-hot encoding朱
l伎手,  螳 企ゼ 螳螳
projection   蠏 覯″磯れ
蠏 蟲伎 Projection Layer
覲企碁.
 蠏 る 蠍一 Weight Matrix襯
螻燕伎 Output Layer襦 覲企願
softmax 螻一  ,  蟆郁骸襯
讌讌 伎 one-hot encoding螻
觜蟲 襯 螻壱.
CBOW(Continuous
Bag-of-Words)
 磯殊 豌 螻磯
CxN + NxV
 襷 V襯 lnV襦 譴企 
 覃 豌 螻磯
CxN + N x lnV
讀, C=10, N=500, V=1,000,000
襦 ′ 500 x
(10+ln(1,000,000)) =  10000
螻磯覦 れ  蟆企.
Skip-gram
-蟆企覿 貊ろ碁ゼ 豸
1覿 T蟾讌 螳 (t) m 覦蟆暑
伎 譯朱企ゼ 豸″ 蟆.
 譯殊伎 譴(target word /
center word)襦覿 螳蟾 
伎 襯螳 豕
覦レ朱 襯 蟲燕.
讀, 蟆  譯朱 襦 
襯 覦 蟯煙 り
.
Skip-gram
  譯殊伎  襯 螳讌螻 譯殊
煙ロ 襾語 覈 螳讌 企れ 煙
覿襯 豢 蟆(Skip-gram 覈語
CBOW 覦 覦レ 覈)
 螳蟾 豺伎 伎 襦 
伎 蟯  襷 伎 蟆企も
   螳     蠍   覃 襴
伎語 伎殊襦  襯襦
 覦覯 .
Skip-gram
 Skip-gram 覈語  企ゼ 豌襴 
  螻磯 れ螻 螳. C螳 企ゼ 
襷り  ,
  企ゼ Projection  一 N
 Output 螻壱 一 N x V,  
覃 N x ln V
 豐 C螳 伎  讌伎 覩襦 豐 C覦
 襦 豐 C(N + N x lnV) 襷殊 一一 .
Negative Sampling
 蠍一 Q(D=1|w_t,h) 一危一 D 貊ろ h 蟯谿壱 願 w 伎
襦讌ろ 蠏覿 襯企. 企 給 embedding vectors襯 伎伎
螻磯. れ , k螳 觜(contrastive) 企れ noise
distribution 蟲螻 企ゼ 蠏 豬伎  螳 螻壱. (讀, 覈
豺企ゼ襦 蠏 螻壱.)
logQ :襦讌
燕蠏襯
一危一 D
h 蟯谿壱 
w 襯蟲蠍
W(~ 語伎):K螳() 觜
(contrastive)企れ noise distribution
 蟲螻 企ゼ 蠏豬 螳 螻.
Real Target noise
Negative Sampling
  覈 覈語 れ 伎  襯 覿螻 語
讀 企れ  襯 覿覃 豕.
 企 譬襯  (loss function)襯  蟆 朱
.      一危碁 softmax 
 一危語 蠏殊.
 煙 螻 觜 豸°伎, 企 覦 襷れ 企. 
覃 豌 危 V襯 螻壱 蟆  磯Μ螳  k螳
noise 企る 螻壱覃 蠍 覓語企. 磯殊 企 碁企 
螳 讌ш 譴譴.
Word2Vec : Skip gram model 蟲
 覈 : 覈襯 豕; embedding parameter
update
 Tensorflow  NCE LOSS
 Noise-contrastive estimation
 襦 : tf.nn.nce_loss
Word2vec 襴  蟲蠍危碁 404
れ:
http://solarisailab.com/archives/
374
一危一
 http://mattmahoney.net/dc/
 text8.zip
 Data size 17005207
覓伎覿譯殊(anarchism ) 蟲
覈 蟲願骸  覈 壱
覲 煙  豐蠍 碁 螻蠍 蠍
讌譯殊 れ  豌  
 企 谿曙讌襷 
企  レ  
 レ  
レ  (used
in a pejorative way to describe
any act that used violent means
to destroy the organization of
society) 襯 覓  
.
企磯伎
蟲 蟆郁骸
蟲 蟆郁骸
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
蟆磯
 Embeddings 螳蠍 : 豢(Analogical Reasoning)
 Embeddings  NLP  れ 豸 覓語  . 
  覈語企 螳豌企 覈語 旧 誤螻, embeddings
襯 螳 螳讌 螳 覦覯 企れ 讌  king
is to queen as father is to ?  螳 蟲覓碁 蠏碁Μ螻 覩碁
 蟯螻襯 豸″ 蟆企.
蟆磯
 hyperparameters    覓語  襷れ  
 譴  .  覓語  豕螻 炎骸襯 燕蠍 伎
襷れ  dataset  牛 蟆, hyperparameters   譴
 譟一, 蠏碁Μ螻 一危一 企豢豢螻 螳 蠍磯 伎 蟆
 .
蟆磯
 hyperparameters    覓語  襷れ  
 譴  .  覓語  豕螻 炎骸襯 燕蠍 伎
襷れ  dataset  牛 蟆, hyperparameters   譴
 譟一, 蠏碁Μ螻 一危一 企豢豢螻 螳 蠍磯 伎 蟆
 .

More Related Content

(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)

  • 2. NLP危危蠍 企至 螳 企ゼ 覯″壱伎 螳? 覓語螳 蟯蟇 CBOW Skip-gram 企朱 ろ豎 襦 れ 覯 覦 word2vec 覈 襦 伎伎蟆 .
  • 3. NLP危危蠍 one-hot encoding NLP one-hot encoding 覦 襷 . 襯 れ, 願 企 企れ 讌 n螳讌襴 (Dictionary) り 企慨. , 企 企ゼ 蠍 伎 蠍語 n讌襴 覯″磯ゼ 襷り, 蠏 願 企豪 襴 1 j 襾語 襴れ 0 k 蟆企. [螳, 瑚鍵, 螻, 覦] 企朱 螻朱ゼ 覯″磯 [0, 0, 1, 0] 企.
  • 4. NLP危危蠍 one-hot encoding 誤螻 覈 螳 企ゼ 危(token) 覯 壱 覯″ 螻糾(word space) 螳 襯 (represent) 覲 . N谿(N- dimensional)螻糾 螳 企 覩碁ゼ 螳 蟆企. 蠏 れ, 磯Μ 螳 企ゼ one-hot vector襦 企骸 . Vector 蠍磯 磯Μ螳 螳讌 危 襷 襷 蟆企. 蠏碁Μ 螻 one-hot vector覦朱 螳 企 襴暑 螳豌(entity)襦 蟆企.
  • 5. NLP危危蠍 one-hot encoding One-hot vector覦朱 螳 煙 谿場 . 覦燕磯ゼ 伎覃 0 り鍵 覓語企. 誤螻 覈 螳, 覩語 煙 覦蟆 螳 .
  • 6. 願屋覦 伎 覦燕郁概螳蠍磯ゼ 譴 螳 . 螳 伎 蟯螻襯 覦蟆 覦レ朱 螻糾 覦覯 .
  • 7. Word Embeddings 轟 願 覓語 伎 譯朱 蟷 煙ロ 螳 企ゼ dense vector襦 伎 企れ 伎 蠏 覩碁ゼ 豸″ 螳. Word vector 蟯 譴 w(t) 蠏 譯朱(context words)伎 譴 伎 覩碁ゼ 豸″. 語 襷覘豺(corpus) 襷 豺襯 螳螻 t襯 誤 . 企襦 覓語 vector 豺 讌. 企ゼ 覦燕磯 (loss)豕 蟆 蟯.
  • 8. Word2Vec word2vec 2013 蟲蠍 覦 郁規襦, Tomas Mikolov朱 襦 郁規れ 覈 襷 Continuous Word Embedding 覈企. 覦 , 朱語 讌 譴 Jeffery Dean (蟲蠍 れ 襦蠏碁襾碁 MapReduce煙 襷) る 企. 覈語 蠍一ヾ Neural Net 蠍磯 給逢覯 觜 蟆 殊 蟆 讌襷, 螻磯 豌蟆 譴 蠍一ヾ 覦覯 觜 覈 覦 伎 觜襯 旧 螳レ 螳 襷 企れ Word Embedding 覈語 .
  • 9. Word2Vec 覈 企ゼ vector襦 伎 炎骸 谿伎 螻壱. 螻磯 蟆郁骸襯 覦朱 蠏 譯朱(context word) 蟯螻襯 牛 願 (representation) 覦襯 讌朱 豸″ 蟆企.
  • 10. 螻襴讀 Skip-gram(SG) 蟆 企ゼ 伎 譯朱(context words)襯 豸 Continuous Bag of Words(CBOW) 譯朱企ゼ 伎 蟆 企ゼ 豸
  • 11. CBOW(Continuous Bag-of-Words) 蠍一ヾ 郁規り骸 襴, 郁規 旧 り鍵 ろ 覈語 螳讌 . 螳讌 CBOW(Continuous Bag-of- Words) 覈語願, るジ Skip-gram 覈語企.
  • 12. CBOW(Continuous Bag-of-Words) CBOW 覈語 蟆 Input Layer, Projection Layer, Output Layer襦 企伎 . 蠏碁殊 譴螳 伎願 Hidden Layer手 蠍磯 讌襷, Input 譴 螳 伎企 螳 螻殊 weight 襯 螻燕伎朱 蟆企手鍵 覲企る Projection 螻殊 螳蟾 磯襦 Projection Layer朱 企 蟆 螳.
  • 13. CBOW(Continuous Bag-of-Words) Input Layer Projection Layer襦 螳 覈 企れ 螻牛旧朱 VxN 蠍一 Projection Matrix W螳 螻 (N Projection Layer 蠍 = 覯″一 蠍語), Projection Layer Output Layer襦 螳 NxV 蠍一 Weight Matrix W 螳 .
  • 14. CBOW(Continuous Bag-of-Words) Input NNLM 覈瑚骸 螳 企ゼ one-hot encoding朱 l伎手, 螳 企ゼ 螳螳 projection 蠏 覯″磯れ 蠏 蟲伎 Projection Layer 覲企碁. 蠏 る 蠍一 Weight Matrix襯 螻燕伎 Output Layer襦 覲企願 softmax 螻一 , 蟆郁骸襯 讌讌 伎 one-hot encoding螻 觜蟲 襯 螻壱.
  • 15. CBOW(Continuous Bag-of-Words) 磯殊 豌 螻磯 CxN + NxV 襷 V襯 lnV襦 譴企 覃 豌 螻磯 CxN + N x lnV 讀, C=10, N=500, V=1,000,000 襦 ′ 500 x (10+ln(1,000,000)) = 10000 螻磯覦 れ 蟆企.
  • 16. Skip-gram -蟆企覿 貊ろ碁ゼ 豸 1覿 T蟾讌 螳 (t) m 覦蟆暑 伎 譯朱企ゼ 豸″ 蟆. 譯殊伎 譴(target word / center word)襦覿 螳蟾 伎 襯螳 豕 覦レ朱 襯 蟲燕. 讀, 蟆 譯朱 襦 襯 覦 蟯煙 り .
  • 17. Skip-gram 譯殊伎 襯 螳讌螻 譯殊 煙ロ 襾語 覈 螳讌 企れ 煙 覿襯 豢 蟆(Skip-gram 覈語 CBOW 覦 覦レ 覈) 螳蟾 豺伎 伎 襦 伎 蟯 襷 伎 蟆企も 螳 蠍 覃 襴 伎語 伎殊襦 襯襦 覦覯 .
  • 18. Skip-gram Skip-gram 覈語 企ゼ 豌襴 螻磯 れ螻 螳. C螳 企ゼ 襷り , 企ゼ Projection 一 N Output 螻壱 一 N x V, 覃 N x ln V 豐 C螳 伎 讌伎 覩襦 豐 C覦 襦 豐 C(N + N x lnV) 襷殊 一一 .
  • 19. Negative Sampling 蠍一 Q(D=1|w_t,h) 一危一 D 貊ろ h 蟯谿壱 願 w 伎 襦讌ろ 蠏覿 襯企. 企 給 embedding vectors襯 伎伎 螻磯. れ , k螳 觜(contrastive) 企れ noise distribution 蟲螻 企ゼ 蠏 豬伎 螳 螻壱. (讀, 覈 豺企ゼ襦 蠏 螻壱.) logQ :襦讌 燕蠏襯 一危一 D h 蟯谿壱 w 襯蟲蠍 W(~ 語伎):K螳() 觜 (contrastive)企れ noise distribution 蟲螻 企ゼ 蠏豬 螳 螻. Real Target noise
  • 20. Negative Sampling 覈 覈語 れ 伎 襯 覿螻 語 讀 企れ 襯 覿覃 豕. 企 譬襯 (loss function)襯 蟆 朱 . 一危碁 softmax 一危語 蠏殊. 煙 螻 觜 豸°伎, 企 覦 襷れ 企. 覃 豌 危 V襯 螻壱 蟆 磯Μ螳 k螳 noise 企る 螻壱覃 蠍 覓語企. 磯殊 企 碁企 螳 讌ш 譴譴.
  • 21. Word2Vec : Skip gram model 蟲 覈 : 覈襯 豕; embedding parameter update Tensorflow NCE LOSS Noise-contrastive estimation 襦 : tf.nn.nce_loss Word2vec 襴 蟲蠍危碁 404 れ: http://solarisailab.com/archives/ 374
  • 22. 一危一 http://mattmahoney.net/dc/ text8.zip Data size 17005207 覓伎覿譯殊(anarchism ) 蟲 覈 蟲願骸 覈 壱 覲 煙 豐蠍 碁 螻蠍 蠍 讌譯殊 れ 豌 企 谿曙讌襷 企 レ レ レ (used in a pejorative way to describe any act that used violent means to destroy the organization of society) 襯 覓 . 企磯伎
  • 26. 蟆磯 Embeddings 螳蠍 : 豢(Analogical Reasoning) Embeddings NLP れ 豸 覓語 . 覈語企 螳豌企 覈語 旧 誤螻, embeddings 襯 螳 螳讌 螳 覦覯 企れ 讌 king is to queen as father is to ? 螳 蟲覓碁 蠏碁Μ螻 覩碁 蟯螻襯 豸″ 蟆企.
  • 27. 蟆磯 hyperparameters 覓語 襷れ 譴 . 覓語 豕螻 炎骸襯 燕蠍 伎 襷れ dataset 牛 蟆, hyperparameters 譴 譟一, 蠏碁Μ螻 一危一 企豢豢螻 螳 蠍磯 伎 蟆 .
  • 28. 蟆磯 hyperparameters 覓語 襷れ 譴 . 覓語 豕螻 炎骸襯 燕蠍 伎 襷れ dataset 牛 蟆, hyperparameters 譴 譟一, 蠏碁Μ螻 一危一 企豢豢螻 螳 蠍磯 伎 蟆 .

Editor's Notes

  1. logQ 襦讌ろ 蠏 襯 D = 1|wt,h 一危一 D 貊ろ h 蟯谿壱 願 w k螳 觜(contrastive)企れ noise distributio 蟲螻 企ゼ 蠏 豬 螳 螻