ºÝºÝߣ

ºÝºÝߣShare a Scribd company logo
Jeonghun Yoon
Probabilistic Topic Models
Natural Language Processing
Natural language(ìžì—°ì–´) : ì¼ìƒ ìƒí™œì—ì„œ 사용하는 언어
Natural language processing(ìžì—°ì–´ 처리) : ìžì—°ì–´ì˜ ì˜ë¯¸ë¥¼ 분ì„하여 컴퓨터가 여러가지 ì¼ë“¤ì„(tasks) 처
리할 수 있ë„ë¡ í•˜ëŠ” 것
Easy
ï¬ Spell checking, Keyword search, Finding synonyms
Medium
ï¬ Parsing information from websites, documents, etc
Hard
ï¬ Machine translation
ï¬ Semantic analysis
ï¬ Coherence
ï¬ Question answering
CS 224D : Deep Learning for NLP
Semantic analysis
언어학ì—ì„œì˜ ì˜ë¯¸ 분ì„
ï¬ ìžì—°ì–´ë¥¼ ì´í•´í•˜ëŠ” 기법 중 하나로, ë¬¸ìž¥ì˜ ì˜ë¯¸(meaning, semantic)ì— ê·¼ê±°í•˜ì—¬ ë¬¸ìž¥ì„ í•´ì„하는 ê²ƒì„ ì˜ë¯¸
ï¬ Syntax analysisì˜ ë°˜ëŒ€(lexicon, syntax analysis)
머신러ë‹ì—ì„œì˜ ì˜ë¯¸ 분ì„
ï¬ Corpusì— ìžˆëŠ” ë§Žì€ documents ì§‘í•©ì— ë‚´ì œë˜ì–´ 있는(latent) meanings, concepts, subjects, topics ë“±ì„ ì¶”ì •í• 
수 있는 구조를 ìƒì„±í•˜ëŠ” ê²ƒì„ ì˜ë¯¸
ï¬ ëŒ€í‘œì ì¸ ì˜ë¯¸ ë¶„ì„ ê¸°ë²•
ï¬ Latent Semantic Analysis(LSA or LSI)
ï¬ PLSI
ï¬ Latent Dirichlet Allocation(LDA)
ï¬ Hieararchical Dirichlet Processing(HDP)
Semantic analysis
Representation of documents
Axes of a spatial Probabilistic topics
- Euclidean spaceì—ì„œ ì •ì˜ ê°€ëŠ¥
- Hard to interprete
- 단어ìƒì— ì •ì˜ëœ probability distribution
- Interpretable
1. Axes of a spatial
- LSA
2. Probabilistic topics
- LDA
3. Bayesian Nonparametric
- HDP
LSA (Latent Semantic Analysis)
ï¬ LSA(LSI)는 document dataì˜ ìˆ¨ê²¨ì§„ ì˜ë¯¸(hidden concept)를 찾아내는 기법ì´ë‹¤.
ï¬ LSA는 ê°ê°ì˜ 문서(document)와 단어(word)를 벡터로 표현한다. 벡터내ì—ì„œ ê°ê°ì˜ element는 숨겨진
ì˜ë¯¸ê°€ ë  ê²ƒì´ë‹¤.
LSA (Latent Semantic Analysis)
ï¬ 3번 문서는 ì¿¼ë¦¬ì— ëŒ€í•´ì„œ 1ë“±ì´ ë  ê²ƒì´ë‹¤.
ï¬ 2번, 4번 문서는 ê·¸ 다ìŒì´ ë  ê²ƒì´ë‹¤.
ï¬ 1번, 5번 문서는?
 ì‚¬ëžŒë“¤ì´ ì¸ì‹í•˜ê¸°ë¡œëŠ” 문서 1ë²ˆì´ ë¬¸ì„œ 5번 보다 주어진 ì¿¼ë¦¬ì— ë” ë§žëŠ” 문서ì´ë‹¤.
ì»´í“¨í„°ë„ ì´ëŸ¬í•œ 추론 ê³¼ì •ì„ í•  수 있ì„까? 즉 숨겨진 ì˜ë¯¸ë¥¼ ì°¾ì„ ìˆ˜ 있ì„까?
ð‘‘1 : Romeo and Juliet.
ð‘‘2 : Juliet: O happy dagger!
ð‘‘3 : Romeo died by dagger.
ð‘‘4 : "Live free or die", that's the motto of New-Hampshire
ð‘‘5 : Did you know, New-Hampshire is in New-England
ð‘„ð‘¢ð‘’ð‘Ÿð‘¦ : dies and dagger
LSA (Latent Semantic Analysis)
matrix 𑨠:
romeo juliet happy dagger
live die free new-hampshire
ð‘‘1
ð‘‘2
ð‘‘3
ð‘‘4
ð‘‘5
LSA (Latent Semantic Analysis)
matrix 𑨠:
romeo juliet happy dagger
live die free new-hampshire
ð‘‘1
ð‘‘2
ð‘‘3
ð‘‘4
ð‘‘5
doc-doc matrix
matrix 𑨠: matrix 𑨠ð‘»: matrix ð‘¨ð‘¨ ð‘»(ð‘©):
5 × 8 8 × 5 5 × 5
1번 문서ì—는 romeo, juliet, 2번 문서ì—는 juliet, happy, dagger
즉 ê²¹ì³ì§€ëŠ” ê²ƒì´ 1ê°œì´ë¯€ë¡œ ðµ 1,2 = ðµ 2,1 = 1
matrix ð‘© = ð´ð´ ð‘‡
doc-doc matrix
문서 ð‘–와 문서 ð‘—ê°€ ð‘ê°œ ì˜ ê³µí†µ
단어를 가지고 있으면 ðµ ð‘–, ð‘— = ð‘
word-word matrix
8 × 5 5 × 8 8 × 8
matrix 𑨠:matrix 𑨠ð‘»
: matrix 𑨠ð‘»
ð‘¨(ð‘ª) :
julietì€ 1번, 2번 문서ì—ì„œ 나오고, dagger는 2, 3번 문서ì—ì„œ 나온다.
즉 ê²¹ì³ì§€ëŠ” ê²ƒì´ 1ê°œì´ë¯€ë¡œ ð¶ 2,4 = ðµ 4,2 = 1
matrix ð¶ = ð´ ð‘‡
ð´ word-word matrix
즉, 단어 ð‘–와 단어 ð‘—ê°€ ð‘ ê°œì˜ ë¬¸ì„œì—ì„œ
함께 ë°œìƒí–ˆìœ¼ë©´ ð¶ ð‘–, ð‘— = ð‘
LSA (Latent Semantic Analysis)
SVD 사용!
ð´ = ð‘ˆÎ£ð‘‰ ð‘‡, ð‘ˆëŠ” ðµì˜ eigenvectorsì´ê³ , ð‘‰ëŠ” ð¶ì˜ eigenvectorsì´ë‹¤.
singular value
LSA (Latent Semantic Analysis)
Reduced SVD 사용!
ð´ 𑘠= 𑆠ð‘˜Î£k 𑈠ð‘˜
ð‘‡
, 모든 singular value를 사용할 수 없고, ìž‘ì€ ê²ƒë“¤ì€ ì œì™¸í•œë‹¤.
ð‘˜ê°œì˜ 특ì´ê°’만 남기는 것ì´ë‹¤. 즉 ð‘˜ê°œì˜ "hidden concepts"만 남긴다.
LSA (Latent Semantic Analysis)
Σ2 ð‘‰2
ð‘‡
=
ð‘‰2
ð‘‡
=
Word vector
LSA (Latent Semantic Analysis)
Word vectorì˜ scatter
LSA (Latent Semantic Analysis)
ð‘ˆ2Σ2 =
ð‘ˆ2 =
Document vector ð‘‘1
ð‘‘2
ð‘‘3
ð‘‘4
ð‘‘5
ð‘‘1
ð‘‘2
ð‘‘3
ð‘‘4
ð‘‘5
LSA (Latent Semantic Analysis)
Document vectorì˜ scatter
LSA (Latent Semantic Analysis)
Word / Document vectorì˜ scatter
LSA (Latent Semantic Analysis)
cosine similarity =
ð‘‘ ð‘–∙ð‘ž
ð‘‘ ð‘– ð‘žð‘ž =
ð‘ž1 + ð‘ž2
2
query : dagger, die
result :
LSA (Latent Semantic Analysis)
Word / Document / Query vectorì˜ scatter
1. Axes of a spatial
- LSA
2. Probabilistic topics
- LDA
3. Bayesian Nonparametric
- HDP
Topic models
Topic modelsì˜ ê¸°ë³¸ ì•„ì´ë””ì–´
ï¬ ë¬¸ì„œëŠ” í† í”½ë“¤ì˜ í˜¼í•© 모ë¸ì´ë©° ê° í† í”½ì€ ë‹¨ì–´ìƒì— ì •ì˜ëœ 확률분í¬
Document
Topic i Topic j Topic k
Word Word Word Word Word Word
Probabilistic topic models. Steyvers, M. & Griffiths, T. (2006)
Topic models
- Topic A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching, …
- Topic B: 20% cats, 20% cute, 15% dogs, 15% hamster, …
Doc 1 : I like to eat broccoli and bananas.
Doc 2 : I ate a banana and tomato smoothie for breakfast.
Doc 3 : Dogs and cats are cute.
Doc 4 : My sister adopted a cats yesterday.
Doc 5 : Look at this cute hamster munching on a piece of broccoli.
예제)
- Doc 1 and 2 : 100% topic A
- Doc 3 and 4 : 100% topic B
- Doc 5 : 60% topic A, 40% topic B
Topic models
Introduction to Probabilistic Topic Models. David M. Blei (2012)
Topic models
Introduction to Probabilistic Topic Models. David M. Blei (2012)
(Left) 문서ì—ì„œì˜ topic proportion
(Right) 문서ì—ì„œ ë¹„ì¤‘ì´ ë†’ì•˜ë˜ í† í”½ì— ëŒ€í•˜ì—¬,
토픽별 문서내 빈ë„수가 가장 ë†’ì€ ë‹¨ì–´
Probabilistic Topic Modelsì˜ êµ¬ì¡°
모ë¸ì˜ ì •ì˜ì— ì•žì„œ, 필요한 ë‹¨ì–´ë“¤ì˜ ìˆ˜í•™ì  í‘œê¸°
ï¬ Word : 1, … , 𑉠를 ì¸ë±ìŠ¤ë¡œ 가지는 vocaburary ìƒì˜ items
ï¬ Document : ð‘ wordì˜ sequence
ï¬ ð•¨ = ð‘¤1, ð‘¤2, … , 𑤠ð‘ , 𑤠𑛠: wordì˜ sequenceë‚´ì—ì„œ ð‘›ë²ˆì§¸ì— 있는 word
ï¬ Corpus : ð· documentsì˜ collection
ï¬ ð¶ = ð•¨1, ð•¨2, … , 𕨠ð·
Probabilistic Topic Modelsì˜ êµ¬ì¡°
문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ :
𑃠ð‘¤ð‘– =
ð‘˜=1
ð¾
𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = ð‘˜
ï¬ ð‘ƒ ð‘¤ð‘–|ð‘§ð‘– = 𑘠: 토픽 ð‘˜ì—ì„œ, 단어 ð‘¤ð‘–ì˜ probability
ï¬ ê° í† í”½ì—ì„œ ì–´ë–¤ ë‹¨ì–´ë“¤ì´ ì¤‘ìš”í• ê¹Œ?
ï¬ ð‘ƒ ð‘§ð‘– = 𑘠: ð‘–번째 ë‹¨ì–´ì— í† í”½ ð‘˜ê°€ 할당ë˜ëŠ” probability (즉, 토픽 ð‘—ê°€ ð‘–번째 단어를 위해 ìƒ˜í”Œë§ ë  í™•ë¥ )
𛽠𑘠= 𑃠ð‘¤|𑧠= 𑘠: 토픽 ð‘˜ì—ì„œ, ë‹¨ì–´ë“¤ì˜ multinomial distribution
𜃠𑑠= 𑃠𑧠: 문서 ð‘‘ì—ì„œ, í† í”½ë“¤ì˜ multinomial distribution
Latent Dirichlet Allocationì˜ ë“±ìž¥
문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ :
𑃠ð‘¤ð‘– =
ð‘˜=1
ð¾
𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = ð‘˜
디리í´ë ˆ 분í¬(Dirichlet distribution)ì€ multinomial distributionì˜ ì¼¤ë ˆ 사전 분í¬ë¡œ(conjugate prior) 사용
다항 분í¬(Multinomial distribution) ð‘ = ð‘1, … , ð‘ ð¾ ì— ëŒ€í•œ Dirichlet distribution :
ð·ð‘–ð‘Ÿ ð›¼1, … , 𛼠ð¾ =
Γ 𑘠𛼠ð‘˜
𑘠Γ 𛼠𑘠ð‘˜=1
ð¾
ð‘ ð‘˜
𛼠ð‘˜âˆ’1
ï¬ Hyperparameter ð›¼ð‘— : 문서 ð‘‘ì—ì„œ 토픽 ð‘—ê°€ ìƒ˜í”Œë§ ëœ íšŸìˆ˜ì— ëŒ€í•œ 사전 관찰 count (문서로부터 단어가 실제로 ê´€
ì°°ë˜ê¸° ì´ì „ì˜ ê°’)
LDA는 Dirichlet distributionì„ ð›‰ì˜ priorë¡œ 사용
(Blei et. Al, 2003)
Latent Dirichlet Allocationì˜ ë“±ìž¥
Latent Dirichlet Allocation. Blei et. Al (2003)
LDA :
Dirichlet parameter
Variant LDAì˜ ë“±ìž¥
문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ :
𑃠ð‘¤ð‘– =
ð‘˜=1
ð¾
𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = ð‘˜
Hyperparameter 𜂠: Corpusì˜ ë‹¨ì–´ê°€ 관찰ë˜ê¸° ì´ì „ì—, 토픽ì—ì„œ 단어가 ìƒ˜í”Œë§ ëœ íšŸìˆ˜ì— ëŒ€í•œ 사전 관찰
count
Varian LDA는 symmetric Dirichlet distribution(ðœ¼)ì„ ðœ·ì˜ priorë¡œ 사용
(Griffiths and Steyvers, 2004)
Variant LDAì˜ ë“±ìž¥ Variant LDA :
Dirichlet parameter
Introduction to Probabilistic Topic Models. David M. Blei (2012)
𛼠Dirichlet parameter
𜃠𑑠문서 ð‘‘ì—ì„œ 토픽 비율(proportion) 𜃠ð‘‘,𑘠문서 ð‘‘ì—ì„œ 특정 토픽 ð‘˜ì˜ proportion
ð‘ 𑑠문서 ð‘‘ì—ì„œ 토픽 할당(assignment) ð‘ ð‘‘,𑛠문서 ð‘‘ì—ì„œ ð‘›-th ë‹¨ì–´ì— ëŒ€í•œ 토픽 할당
ð‘Šð‘‘ 문서 ð‘‘ì—ì„œ ê´€ì°°ëœ ë‹¨ì–´ë“¤ ð‘Šð‘‘,𑛠문서 ð‘‘ì—ì„œ ð‘›-th 단어
𛽠ð‘˜
토픽 ð‘˜ì˜ vocaburaryì—ì„œì˜ ë¶„í¬
(단어 ì „ì²´ ì…‹ì—ì„œ ì •ì˜ëœ 토픽 ð‘˜ì˜ 분í¬)
𜂠Dirichlet parameter
The plate surrounding ðœƒ ð‘‘ ê° ë¬¸ì„œ ð‘‘ì— ëŒ€í•˜ì—¬, 토픽 분í¬ì˜ sampling (ì´ ð·ê°œì˜ 문서)
The plate surrounding ð›½ ð‘˜ ê° topic ð‘˜ì— 대하여, 단어 분í¬ì˜ sampling (ì´ ð¾ê°œì˜ 토픽)
LDA 모ë¸ì˜ 변수
𜃠ð‘‘
′
ð‘  :
𛽠ð‘˜
′
ð‘  :
Document Topic 1 Topic 2 Topic 3 … Topic ð¾
Document 1 ðœƒ1 0.2 0.4 0.0 … 0.1
Document 2 ðœƒ2 0.8 0.1 0.0 … 0.0
… … … … … …
Document 𑀠𜃠𑀠0.5 0.4 0.1 … 0.0
Terms Topic 1 ð›½1 Topic 2 ð›½2 Topic 3 ð›½3 … Topic ð¾ 𛽠ð¾
Word 1 0.02 0.09 0.00 … 0.00
Word 2 0.08 0.52 0.37 … 0.03
… … … … … …
Wordt 𑉠0.05 0.12 0.01 … 0.45
í•© : 1
í•© : 1
- Variant LDA versionì„ ì‚¬ìš©í•˜ê³  있으므로, ì´ versionì„ LDA ë¼ê³  지칭 하겠ìŒ
LDAì˜ Generative process
LDA는 generative modelì´ë‹¤.
1. ë¬¸ì„œì˜ ë‹¨ì–´ì˜ ê°¯ìˆ˜ ð‘ì„ Poisson 분í¬ë¥¼ ì´ìš©í•˜ì—¬ ì„ íƒí•œë‹¤. ð‘~ð‘ƒð‘œð‘–ð‘ ð‘ ð‘œð‘›(ðœ‰)
2. ë¬¸ì„œì˜ í† í”½ 분í¬(proportion) 𜃠ð‘‘를 Dirichlet(ð›¼) 분í¬ë¥¼ ì´ìš©í•˜ì—¬ ì„ íƒí•œë‹¤. 𜃠ð‘‘~ð·ð‘–ð‘Ÿð‘–ð‘â„Žð‘™ð‘’ð‘¡ ð›¼
3. ë¬¸ì„œì˜ ë‹¨ì–´ ê°ê°ì— 대하여
a. 토픽 ë¶„í¬ ðœƒ ð‘‘를 ì´ìš©í•˜ì—¬, ë‹¨ì–´ì— í† í”½ì„ í• ë‹¹í•œë‹¤. ð‘ ð‘‘,ð‘›~ð‘€ð‘¢ð‘™ð‘¡ð‘–ð‘›ð‘œð‘šð‘–ð‘Žð‘™ ðœƒ
b. ð‘ ð‘Šð‘‘,ð‘›|ð‘ ð‘‘,ð‘›, 𛽠를 ì´ìš©í•˜ì—¬ 단어를 ì„ íƒí•œë‹¤. ì´ í™•ë¥ ë¶„í¬ëŠ” 다항분í¬ì´ë‹¤.
LDAì˜ Generative process
예제)
1. 새로운 문서 ð·ì˜ 길ì´ë¥¼ 5ë¡œ ì„ íƒí•œë‹¤. 즉, ð· = ð‘¤1, ð‘¤2, ð‘¤3, ð‘¤4, ð‘¤5
2. 문서 ð·ì˜ 토픽 분í¬ë¥¼ 50%는 ìŒì‹(food), 50%는 ë™ë¬¼(animal)ë¡œ ì„ íƒí•œë‹¤.
3. ê° ë‹¨ì–´ì— ëŒ€í•˜ì—¬,
1. 첫번째 단어 ð‘¤1ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ broccoli를 ð‘¤1으로 ì„ íƒí•œë‹¤.
2. ë‘번째 단어 ð‘¤2ì— animal topicì„ í• ë‹¹í•œë‹¤. Animal topicì—ì„œ panda를 ð‘¤2으로 ì„ íƒí•œë‹¤.
3. 세번째 단어 ð‘¤3ì— animal topicì„ í• ë‹¹í•œë‹¤. Animal topicì—ì„œ adorable 를 ð‘¤3으로 ì„ íƒí•œë‹¤.
4. 네번째 단어 ð‘¤4ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ cherries 를 ð‘¤4으로 ì„ íƒí•œë‹¤.
5. 다섯번째 단어 ð‘¤5ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ eating 를 ð‘¤5으로 ì„ íƒí•œë‹¤.
ð· : broccoli panda adorable cherries eating
LDA 모ë¸ì˜ inference
관찰 가능한 문서 ë‚´ 단어 ð‘Šð‘‘,ð‘›ë¥¼ ì´ìš©í•˜ì—¬, LDA 모ë¸ì˜ 잠재 변수(hidden variable)ì¸ ë¬¸ì„œì˜ í† í”½ë¶„í¬ ðœƒ ð‘‘
와 í† í”½ì˜ ë‹¨ì–´ë¶„í¬ ð›½ ð‘˜ë¥¼ 추정하는 ê³¼ì •ì´ inferenceì´ë‹¤.
Generative probabilistic modelingì—서는, data는 잠재 변수(hidden variable)를 í¬í•¨í•˜ëŠ” generative
processì—서부터 ë°œìƒí•˜ëŠ”것으로 다룬다. ë”°ë¼ì„œ, generative process는 observed random variableê³¼
hidden random variableì˜ ê²°í•© 확률밀ë„(joint probability distribution)를 ì •ì˜í•œë‹¤.
ï¬ Observed variables : ë¬¸ì„œë‚´ì˜ ë‹¨ì–´ë“¤
ï¬ Hidden variables : ë¬¸ì„œì˜ í† í”½ 분í¬, í† í”½ì˜ ë‹¨ì–´ ë¶„í¬ (topic structure)
ê²°í•© 확률밀ë„함수를 ì´ìš©í•˜ì—¬ observed variableì´ ì£¼ì–´ì¡Œì„ ë•Œ hidden variableì˜ ì¡°ê±´ë¶€ 분í¬ë¥¼ 구한다.
ì´ ë¶„í¬ëŠ” 사후 확률분í¬(posterior distribution)ì´ë‹¤.
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð· , ð‘¤1:ð· =
ð‘–=1
ð¾
ð‘ ð›½ð‘–
ð‘‘=1
ð·
ð‘ 𜃠ð‘‘
ð‘›=1
ð‘
ð‘ 𑧠ð‘‘,ð‘›|𜃠𑑠ð‘ 𑤠ð‘‘,ð‘›|ð›½1:ð¾, 𑧠ð‘‘,ð‘›
관찰 가능 ë°ì´í„° ð‘¤1:ð·ë¥¼ 통해서 inference해야 í•  변수 : ð›½1:ð·, ðœƒ1:ð·, ð‘§1:ð·
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· =
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð·
ð‘ ð‘¤1:ð·
LDA 모ë¸ì˜ inference
ð›½1:ð¾ 토픽 1~ð¾ì˜ vocabularyì—ì„œì˜ ë¶„í¬
ðœƒ1:ð· 문서 1~ð·ì—ì„œì˜ í† í”½ 비율
ð‘§1:ð· 문서 1~ð·ì—ì„œì˜ í† í”½ 할당
ð‘¤1:ð· 문서 1~ð·ì—ì„œ ê´€ì°°ëœ ë‹¨ì–´ë“¤
Posterior dist.
LDA 모ë¸ì˜ inference
Posterior distributionì„ êµ¬í•˜ëŠ” ê²ƒì€ ì‰¬ìš´ê²ƒì¸ê°€?
분ìžì˜ 경우를 먼저 살펴보ìž.
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· =
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð·
ð‘ ð‘¤1:ð·
모든 random variableì˜ ê²°í•© í™•ë¥ ë°€ë„ í•¨ìˆ˜ëŠ”,
hidden variableì´ ìž„ì˜ë¡œ 셋팅ëœë‹¤ë©´ 쉽게 계산 가능
LDA 모ë¸ì˜ inference
ë¶„ëª¨ì˜ ê²½ìš°ë¥¼ 살펴보ìž.
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· =
ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð·
ð‘ ð‘¤1:ð·
Observed variableì˜ ì£¼ë³€ ë°€ë„함수(marginal probability)
- ìž„ì˜ì˜ topic modelì—ì„œ, observed corpus를 ë³¼ 수 ìžˆì„ í™•ë¥ ì„ êµ¬í•˜ëŠ” 것
- 모든 hidden topic structureì˜ ê°€ëŠ¥í•œ 경우(instantiation)를 구하고, ê²°í•© í™•ë¥ ë°€ë„ í•¨ìˆ˜ë¥¼ summation
가능한 hidden topic sturcture는 지수ì ìœ¼ë¡œ 많다. ë”°ë¼ì„œ 해당 ë°€ë„함수를 구하는 ê²ƒì€ ë§¤ìš° 어렵다.
Modern probabilistic models, Bayesian statisticsì—서는 ë¶„ëª¨ì˜ ë¶„í¬ ë•Œë¬¸ì— posterior를 계산하는 것ì´
어렵다. ë”°ë¼ì„œ posterior를 효과ì ìœ¼ë¡œ 추정하는 ê¸°ë²•ì— ëŒ€í•œ 연구가 ë§Žì´ ì´ë£¨ì–´ì§€ê³  있다.
ë”°ë¼ì„œ, topic modeling algorithmsì—ì„œë„ posterior distributionì„ ì¶”ì •í•˜ê¸° 위한 ê¸°ë²•ì„ í™œìš©í•œë‹¤.
- sampling based method
- variational method
Difficulty of deriving marginal probability ð‘ ð‘¤1:ð·
ï¬ Topic mixture ðœƒì˜ joint distribution (parameter : ð›¼, ð›½)
ð‘ ðœƒ, ð•«, 𕨠ð›¼, 𛽠= ð‘ ðœƒ|ð›¼
ð‘›=1
ð‘
ð‘ 𑧠ð‘›|𜃠ð‘ 𑤠ð‘›|𑧠ð‘›, ð›½
ï¬ Documentì˜ marginal distribution
ð‘ ð•¨|ð›¼, 𛽠= ð‘ ðœƒ|ð›¼
ð‘›=1
ð‘
𑧠ð‘›
ð‘ 𑧠ð‘›|𜃠ð‘ 𑤠ð‘›|𑧠ð‘›, 𛽠ð‘‘ðœƒ
ï¬ Corpusì˜ probability
ð‘ ð·|ð›¼, 𛽠=
ð‘‘=1
ð‘€
ð‘ 𜃠ð‘‘|ð›¼
ð‘›=1
ð‘ ð‘‘
𑧠ð‘‘ð‘›
ð‘ 𑧠ð‘‘ð‘›|𜃠𑑠ð‘ 𑤠ð‘‘ð‘›|𑧠ð‘‘ð‘›, 𛽠ð‘‘𜃠ð‘‘
ì—¬ê¸°ì„œì˜ notationì€ Latent Dirichlet Allocation. Blei et. Al (2003)ì„ ì°¸ê³ 
Algorithm for extracting topics
Gibbs sampling
ð‘· ð’›ð’Š = ð’‹|ð’›âˆ’ð’Š, ð‘¤ð‘–, ð‘‘ð‘–,∙ âˆ
ð¶ 𑤠𑖠ð‘—
ð‘‰ð¾
+ ðœ‚
ð‘¤=1
ð‘‰
ð¶ ð‘¤ð‘—
ð‘‰ð¾
+ ð‘‰ðœ‚
ð¶ ð‘‘ð‘– ð‘—
ð·ð¾
+ ð›¼
ð‘¡=1
ð¾
ð¶ ð‘‘ ð‘– ð‘¡
ð·ð¾
+ ð‘‡ð›¼
문서ì—ì„œ ð‘–ë²ˆì§¸ì— ë‚˜ì˜¤ëŠ” 단어 ð‘¤ì˜ í† í”½ì´ ð‘—ì¼ í™•ë¥ ì— ì˜í–¥ì„ 미치는 요소
- 요소 1 : 토픽 ð‘—ì— í• ë‹¹ëœ ì „ì²´ 단어 중ì—ì„œ 해당 ë‹¨ì–´ì˜ ì ìœ ìœ¨ì´ 높ì„ìˆ˜ë¡ ð‘—ì¼ í™•ë¥ ì´ í¬ë‹¤.
- 요소 2 : wð‘–ê°€ ì†í•œ 문서 ë‚´ 다른 단어가 토픽 ð‘—ì— ë§Žì´ í• ë‹¹ë˜ì—ˆì„ìˆ˜ë¡ ð‘—ì¼ í™•ë¥ ì´ í¬ë‹¤.
ð‘§ð‘– = 𑗠문서ì—ì„œ ð‘–ë²ˆì§¸ì— ë‚˜ì˜¤ëŠ” 단어 ð‘¤ì— 토픽 ð‘—ê°€ 할당
ð•«âˆ’ð‘– ð‘–번째 단어를 제외한 다른 ë‹¨ì–´ë“¤ì— ëŒ€í•œ 토픽 할당
ð‘¤ð‘– 단어 index
ð‘‘𑖠문서 index
∙ 다른 ì •ë³´ ë° observed information
ð¶ ð‘¤ð‘—
ð‘Šð¾
단어 ð‘¤ê°€ 토픽 ð‘—ì— í• ë‹¹ëœ íšŸìˆ˜ (현재 ð‘–는 제외)
ð¶ ð‘‘ð‘—
ð·ð¾
문서 ð‘‘ì˜ ë‹¨ì–´ë“¤ 중ì—ì„œ 토픽 ð‘—ì— í• ë‹¹ëœ íšŸìˆ˜ (현재 ð‘–는 제외)
ðœ‚ í† í”½ì˜ ë‹¨ì–´ ë¶„í¬ ìƒì„±ì— 사용ë˜ëŠ” Dirichlet parameter
ð›¼ ë¬¸ì„œì˜ í† í”½ ë¶„í¬ ìƒì„±ì— 사용ë˜ëŠ” Dirichlet parameter
Smoothing
Algorithm for extracting topics
Doc 0 : ð‘§0,0, ð‘§0,1, ð‘§0,2, ð‘§0,3
Doc 1 : (ð‘§1,0, ð‘§1,1, ð‘§1,2)
Doc 2 : (ð‘§2,0, ð‘§2,1, ð‘§2,2, ð‘§2,3)
Doc 3 : (ð‘§3,0, ð‘§3,1, ð‘§3,2, ð‘§3,3, ð‘§5,4)
Doc 4 : (ð‘§4,0, ð‘§4,1, ð‘§4,2, ð‘§4,3, ð‘§4,4)
Doc 5 : (ð‘§5,0, ð‘§5,1, ð‘§5,2, ð‘§5,3, ð‘§5,4, ð‘§5,5)
예제)
ð‘§ð‘–,ð‘— : ð‘–번째 ë¬¸ì„œì— ð‘— í† í”½ì´ í• ë‹¹ëœ ê²ƒì„ ë‚˜íƒ€ë‚´ëŠ” 확률변수
1. í™•ë¥ ë³€ìˆ˜ì— ëžœë¤í•˜ê²Œ í† í”½ì„ í• ë‹¹
2. ð‘§0,0ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§0,0ì˜ ê°’ì„ ì—…ë°ì´íŠ¸
3. ð‘§0,1ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§0,1ì˜ ê°’ì„ ì—…ë°ì´íŠ¸
….
4. ð‘§5,5ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§5,5ì˜ ê°’ì„ ì—…ë°ì´íŠ¸
5. 확률변수가 수렴할 때까지 반복
Algorithm for extracting topics
ð¶ ð‘‰ð¾
=
ð¶11 ð¶12 …
ð¶21 ð¶22 …
… … …
ð¶1𑘠… ð¶1ð¾
ð¶2𑘠… ð¶2ð¾
… … …
ð¶ ð‘£3 ð¶ ð‘£3 …
… … …
ð¶ ð‘‰1 ð¶ ð‘‰2 …
ð¶ ð‘£ð‘˜ … ð¶ ð‘£ð¾
… … …
ð¶ ð‘‰ð‘˜ … ð¶ ð‘‰ð¾
ð¶ ð·ð¾
=
ð¶11 ð¶12 …
ð¶21 ð¶22 …
… … …
ð¶1𑘠… ð¶1ð¾
ð¶2𑘠… ð¶2ð¾
… … …
ð¶ ð‘‘3 ð¶ ð‘‘3 …
… … …
ð¶ ð·1 ð¶ ð·2 …
ð¶ ð‘‘𑘠… ð¶ ð‘‘ð¾
… … …
ð¶ ð·ð‘˜ … ð¶ ð·ð¾
Generative model vs. Statistical inference
최ì ì˜ 토픽 수
Perplexity
ï¬ Language modelingì—ì„œ 주로 컨벤션으로 사용한다.
ï¬ ì¼ë°˜ì ìœ¼ë¡œ perplexity는 exp ð» ð‘ ë¡œ 표현ëœë‹¤. ð» ð‘ 는 ð‘ì˜ ì—”íŠ¸ë¡œí”¼ë¥¼ ì˜ë¯¸í•œë‹¤.
ï¬ LDAì—ì„œ ì¶”ì •ëœ í† í”½ 정보를 ì´ìš©í•˜ì—¬ ë‹¨ì–´ì˜ ë°œìƒ í™•ë¥ ì„ ê³„ì‚°í•˜ì˜€ì„ ë•Œ, í™•ë¥ ê°’ì´ ë†’ì„ìˆ˜ë¡ generative
process를 제대로 설명한다고 본다.
ð‘ƒð‘’ð‘Ÿð‘ð‘™ð‘’ð‘¥ð‘–ð‘¡ð‘¦ ð¶ = exp −
ð‘‘=1
ð·
log ð‘ 𕨠ð‘‘
ð‘‘=1
ð·
ð‘ð‘‘
ï¬ ð‘ 𕨠𑑠: í† í”½ì˜ ë‹¨ì–´ë¶„í¬ ì •ë³´ì™€ 문서내 í† í”½ì˜ ë¹„ì¤‘ ì •ë³´ì˜ ê³±ì„ ì´ìš©í•˜ì—¬ 계산
ï¬ ð‘ 𕨠𑑠는 í´ìˆ˜ë¡ 좋으므로, perplexity는 ìž‘ì„ìˆ˜ë¡ ì¢‹ë‹¤.
최ì ì˜ 토픽 수
Topic coherence
ï¬ ì‹¤ì œë¡œ ì‚¬ëžŒì´ í•´ì„하기ì—(interpretability) ì í•©í•œ í‰ê°€ ì²™ë„를 만들기 위해 ì œì‹œëœ ì—¬ëŸ¬ ì²™ë„들 중 하나
ï¬ Newmanì€ ë‰´ìŠ¤ì™€ ì±… ë°ì´í„°ë¥¼ 수집하여 토픽 모ë¸ë§ì„ 실시. ê·¸ 결과로 나온 í† í”½ë“¤ì´ ìœ ì˜ë¯¸í•œì§€ 수작업으로
ì ìˆ˜í™”. 그리고 ì´ë ‡ê²Œ 매겨진 ì ìˆ˜ì™€ 가장 유사한 결과를 낼 수 있는 ì²™ë„를 제시.
ï¬ í† í”½ 모ë¸ë§ 결과로 나온 ê°ê°ì˜ 토픽ì—ì„œ ìƒìœ„ ð‘ê°œì˜ ë‹¨ì–´ë¥¼ ì„ íƒí•œ 후, ìƒìœ„ 단어 ê°„ì˜ ìœ ì‚¬ë„를 계산하여, 실
제로 해당 í† í”½ì´ ì˜ë¯¸ì ìœ¼ë¡œ ì¼ì¹˜í•˜ëŠ” 단어들ë¼ë¦¬ 모여있는지 íŒë‹¨ 가능
ï¬ ë‹¤ì–‘í•œ 버전
ï¬ NPMI
ï¬ UMass
ï¬ UCI
ï¬ c_v
Newman, D., Lau, J. H., Grieser, K., & Baldwin, T. (2010, June). Automatic evaluation of topic coherence. In Human Language Technologies
최ì ì˜ 토픽 수
Topic coherence : c_v version
M Röder (2015) Exploring the Space of Topic Coherence Measures
1. Axes of a spatial
- LSA
2. Probabilistic topics
- LDA
3. Bayesian Nonparametric
- HDP
Dirichlet Process
LDA는 í† í”½ì˜ ìˆ˜ ð‘˜ê°€ 필요하다. ë°ì´í„°ì— 대하여, ì´ ë°ì´í„°ì— 몇 ê°œì˜ í† í”½ì´ ì¡´ìž¬í•˜ëŠ”ì§€ 미리 아는 것ì€
어렵다. ì´ ë¶€ë¶„ì´ LDAì˜ ì•½ì  ì¤‘ 하나ì´ë‹¤.
하지만 우리는 ë°ì´í„°ì— ë”°ë¼ ì ì ˆí•œ 토픽 개수를 ì°¾ì„ ìˆ˜ 있으며 ì´ê²ƒì€ Dirichlet Process를 ì´ìš©í•˜ì—¬ 구할
수 있다.
Dirichlet distributionì€ ì£¼ì–´ì§„ 하ì´í¼íŒŒë¼ë¯¸í„°ì— ë”°ë¼ ë‹¤í•­ë¶„í¬ë¥¼ ìƒì„±í•´ì£¼ëŠ” 분í¬ë¼ê³  í•  수 있다. ë”°ë¼ì„œ
디리í´ë ˆ 분í¬ë¥¼ 사전분í¬ë¡œ ë‘ë©´, 다항분í¬ë¥¼ 따르는 사후확률분í¬ë¥¼ 쉽게 구할 수 있다. (디리í´ë ˆ 분í¬
는 다항분í¬ì˜ 켤레분í¬ì´ë‹¤.)
Dirichlet Process
ð‘‹ê°€ 디리í´ë ˆ 분í¬ë¥¼ 따른다고 가정하ìž. 즉 ð‘‹~ð·ð‘–ð‘Ÿ(1,2,1)ë¼ê³  하ìž. 여기서 𑘠= 3ì´ë‹¤. ë”°ë¼ì„œ ì´ ë¶„í¬ì—ì„œ
í‘œë³¸ì„ ì¶”ì¶œí•œë‹¤ë©´ 3ê°œì˜ ì„±ë¶„ìœ¼ë¡œë§Œ ì´ë£¨ì–´ì§„, 그리고 ì›ì†Œì˜ í•©ì´ 1ì¸ ìƒ˜í”Œë“¤ì´ ìƒì„±ë  것ì´ë‹¤.
ð•©1 = 0.2,0.5,0.3
ð•©2 = 0.1,0.6, 0.3
…
디리í´ë ˆ 분í¬ë¥¼ 서로 다른 ð‘˜ê°’ì´ ë‚˜ì˜¬ 수 있는 분í¬ë¡œ í™•ìž¥ì„ í•œ ê²ƒì´ ë‹¤ìŒì˜ Dirichlet Processì´ë‹¤.
ð‘‹~ð·ð‘ƒ ð›¼, ð»
ð›¼ëŠ” 집중 파ë¼ë¯¸í„°(concentration parameter)ì´ê³  ð»ëŠ” 모분í¬ì´ë‹¤. ð›¼ê°€ 0ì— ê°€ê¹Œìš¸ìˆ˜ë¡ ð‘‹ì˜ 분í¬ëŠ” 모분í¬
ì˜ í‰ê· ì„ 중심으로 모ì´ê³ , ð›¼ê°€ ì»¤ì§ˆìˆ˜ë¡ ëª¨ë¶„í¬ì˜ í‰ê· ì—ì„œ 멀어지게 ëœë‹¤.
YW The Et al.(2005) Hierarchical Dirichlet Processes
Dirichlet Process
𛼠= 1
𛼠= 10
𛼠= 100
𛼠= 1000
https://en.wikipedia.org/wiki/Dirichlet_process
Concentration parameter 𛼠를 변화시켜 ì–»ì€,
ð‘‹ì˜ 분í¬ì—ì„œ ì¶”ì¶œëœ ìƒ˜í”Œë“¤ì´ë‹¤.
í‘œë³¸ì— í¬í•¨ëœ ð‘˜(막대 개수)는 ê°™ì€ ð›¼ë¼ë„
다르다.
Chinese Restaurant Process
í•œ ì¤‘êµ­ì§‘ì´ ìžˆê³ , ê·¸ 중국집ì—는 무수히 ë§Žì€ ì‹íƒì´ 있다. ì‹íƒì—는 무수히 ë§Žì€ ìžë¦¬ê°€ 있어서 ì†ë‹˜ì´ ì–¼
마든지 ì•‰ì„ ìˆ˜ 있다.
단, ì†ë‹˜ì´ ì‹íƒì— ì•‰ì„ ë•Œ 아래와 ê°™ì€ ê·œì¹™ì´ ìžˆë‹¤.
ï¬ ì†ë‹˜ì€ ì‹íƒì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì‹íƒì— 앉ì„지 ì„ íƒí•œë‹¤.
ï¬ ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì‹íƒì˜ 첫 ì†ë‹˜ì´ ì•‰ì„ ë•Œ ëª¨ë¶„í¬ ð»ì—ì„œ ìŒì‹ 하나를 뽑ìŒìœ¼ë¡œì„œ 결정한다.
ï¬ ì‹íƒì˜ ì¸ê¸°ë„는 앉아 있는 ì‚¬ëžŒì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , ì†ë‹˜ì€ 비어있는 ì‹íƒì„ 고를 수 있다. 빈 ì‹íƒì˜ ì¸ê¸°ë„는 집
중 파ë¼ë¯¸í„° ð›¼ì™€ 비례한다.
첫번째 ì†ë‹˜ì€ 비어있는 ì‹íƒì— ì•‰ì„ ê²ƒì´ë‹¤. ë‘번째 ì†ë‹˜ì€ 첫번째 ì‹íƒì— 앉거나, 비어있는 새로운 ì‹íƒì—
앉는다. 만약 ð›¼ê°€ í¬ë‹¤ë©´ 비어있는 ì‹íƒì„ 고를 í™•ë¥ ì´ ë†’ì•„ì§„ë‹¤. (ë˜ëŠ” ì‹íƒì˜ ì¸ê¸°ê°€ 낮아ë„)
ì´ë ‡ê²Œ ì†ë‹˜ì´ 무한히 ê³„ì† ë“¤ì–´ì˜¤ë‹¤ë³´ë©´ ì‹íƒì˜ 개수가 정해지고(countably infinite), ì‹íƒì˜ ì¸ê¸°ë„ 비율ë„
ì¼ì • ê°’ì— ìˆ˜ë ´í•˜ê²Œ ëœë‹¤. ì´ë ‡ê²Œ ì–»ì€ ì¸ê¸°ë„ì˜ ë¹„ëŠ” 모분í¬ê°€ ð», 집중 파ë¼ë¯¸í„°ê°€ ð›¼ì¸ 디리í´ë ˆ 프로세스
ì—ì„œ ë½‘ì€ ìƒ˜í”Œì´ ëœë‹¤.
Hierarchical Dirichlet Process
DPì˜ ì• ë¡œì‚¬í•­ : 만약 ì¤‘êµ­ì§‘ì´ í•œ ê³³ì´ ì•„ë‹ˆê³  여러곳ì´ë¼ê³  ìƒê°í•˜ìž. ì–´ë–¤ ìŒì‹ì´ 올려진 ì‹íƒì„ 찾아서
ê°ê°ì˜ 중국집ì—ì„œ ê·¸ ìŒì‹ì´ 얼마나 ì¸ê¸° 있는지 확ì¸í•˜ê³  싶다고 하ìž. 문제는 여기서 ë°œìƒí•œë‹¤. ê° ì¤‘êµ­
ì§‘ì— ì‹íƒì´ 몇 ê°œ 있는지 모르고, ê° ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 있는지 모른다. ì–´ë–¤ ìŒì‹ì´ 서로 다른 ì‹ë‹¹ì—ì„œ
ê°™ì´ ë“±ìž¥í•œë‹¤ëŠ” ë³´ìž¥ë„ ì—†ë‹¤. ì‹ë‹¹ ê°„ ìŒì‹ 비êµê°€ 불가능하다.
그래서 í•™ìžë“¤ì€ Hierarchical Dirichlet Process를 제안했다.
ðº0~ð·ð‘ƒ ð›¾, ð»
ðºð‘—~ð·ð‘ƒ(ð›¼, ðº0)
모분í¬ë¥¼ 따르는 ìƒìœ„ 디리í´ë ˆ 프로세스를 ìƒì„±í•˜ê³ , ì´ ë””ë¦¬í´ë ˆ 프로세스를 모분í¬ë¡œ 하는 하위 디리í´
ë ˆ 프로세스를 여러 ê°œ ìƒì„±í•œë‹¤. ì´ëŸ°ì‹ìœ¼ë¡œ 하위 디리í´ë ˆ 프로세스를 서로 ì—°ê²° 시켜준다.
Hierarchical Dirichlet Process
YW The Et al.(2005) Hierarchical Dirichlet Processes
CRP using HDP
중국집 ì²´ì¸ì ì´ 있다. ì²´ì¸ì ì—는 무수히 ë§Žì€ ì‹íƒì´ 있고, ê·¸ ì‹íƒì—는 무수히 ë§Žì€ ìžë¦¬ê°€ 있다. ê° ì²´ì¸
ì ë§ˆë‹¤ ì†ë‹˜ì´ 한명씩 꾸준히 들어와서 ì‹íƒì— ê³¨ë¼ ì•‰ëŠ”ë‹¤. ê°ê°ì˜ ì²´ì¸ì ì— ìŒì‹ì„ 배분해주는 중국집 본
사가 있다. ê° ì²´ì¸ì ì— ì†ë‹˜ì´ 빈 ì‹íƒì— 앉게 ë˜ë©´, ì§ì›ì´ 본사로 가서 ì‹íƒì— 올릴 ìŒì‹ì„ 골ë¼ì˜¨ë‹¤. 본
사ì—는 ìŒì‹ì´ 담겨있는 아주 í° ì ‘ì‹œê°€ 무한히 있고, ê° ì ‘ì‹œëŠ” 충분히 커서 무한히 ìŒì‹ì„ í’€ 수 있다.
CRP using HDP
[ðº0~ð·ð‘ƒ ð›¾, ð» ]
ï¬ ì§ì›ì€ ì ‘ì‹œì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì ‘ì‹œì—ì„œ ìŒì‹ì„ 풀지 ê²°ì •
ï¬ ì ‘ì‹œì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì ‘ì‹œì—ì„œ 첫 ì§ì›ì´ ìŒì‹ì„ í’€ ë•Œ, ëª¨ë¶„í¬ ð»ì—ì„œ ìŒì‹ì„ 하나 뽑ìŒìœ¼ë¡œ ê²°ì •
ï¬ ì ‘ì‹œì˜ ì¸ê¸°ë„는 ìŒì‹ì„ 푸는 ì§ì›ì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , ì§ì›ì´ 비어있는 접시를 고를 ìˆ˜ë„ ìžˆë‹¤. ì ‘ì‹œì˜ ì¸ê¸°ë„는
집중 파ë¼ë¯¸í„° ð›¾ì™€ ìƒê´€ìžˆë‹¤.
[ðºð‘—~ð·ð‘ƒ(ð›¼, ðº0)]
ï¬ ì†ë‹˜ì€ ì‹íƒì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì‹íƒì— 앉ì„지를 고른다.
ï¬ ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì‹íƒì— 첫 ì†ë‹˜ì´ 앉으면 ì§ì›ì„ 본사로 ë³´ë‚´ì„œ 결정하고, ê·¸ ìŒì‹ì˜ ë¶„í¬ ì—­ì‹œ
ì§ì›ë“¤ì´ ì ‘ì‹œì—ì„œ ìŒì‹ì„ 푸는 ë¶„í¬ ðº0를 따른다. (ì‹íƒì—는 1ê°œì˜ ìŒì‹ë§Œ 올ë¼ê°„다)
ï¬ ì‹íƒì˜ ì¸ê¸°ë„는 앉아 있는 ì‚¬ëžŒì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , 집중 파ë¼ë¯¸í„° ð›¼ì— ë”°ë¼ì„œ 비어있는 ì‹íƒì„ ê³ ë¥¼ìˆ˜ë„ ìžˆë‹¤.
CRP using HDP
YW The Et al.(2005) Hierarchical Dirichlet Processes
HDP for infinite topic models
ï¬ ì¤‘êµ­ì§‘ ì²´ì¸ì  – Documents
ï¬ ë³¸ì‚¬ì—ì„œ 결정해주는 ìŒì‹ – Topic
ï¬ ê°ê°ì˜ ì†ë‹˜ë“¤ – Words in a document
https://www.cs.cmu.edu/~epxing/Class/10708-14/scribe_notes/scribe_note_lecture20.pdf

More Related Content

Topic models

  • 2. Natural Language Processing Natural language(ìžì—°ì–´) : ì¼ìƒ ìƒí™œì—ì„œ 사용하는 언어 Natural language processing(ìžì—°ì–´ 처리) : ìžì—°ì–´ì˜ ì˜ë¯¸ë¥¼ 분ì„하여 컴퓨터가 여러가지 ì¼ë“¤ì„(tasks) 처 리할 수 있ë„ë¡ í•˜ëŠ” 것 Easy ï¬ Spell checking, Keyword search, Finding synonyms Medium ï¬ Parsing information from websites, documents, etc Hard ï¬ Machine translation ï¬ Semantic analysis ï¬ Coherence ï¬ Question answering CS 224D : Deep Learning for NLP
  • 3. Semantic analysis 언어학ì—ì„œì˜ ì˜ë¯¸ ë¶„ì„ ï¬ ìžì—°ì–´ë¥¼ ì´í•´í•˜ëŠ” 기법 중 하나로, ë¬¸ìž¥ì˜ ì˜ë¯¸(meaning, semantic)ì— ê·¼ê±°í•˜ì—¬ ë¬¸ìž¥ì„ í•´ì„하는 ê²ƒì„ ì˜ë¯¸ ï¬ Syntax analysisì˜ ë°˜ëŒ€(lexicon, syntax analysis) 머신러ë‹ì—ì„œì˜ ì˜ë¯¸ ë¶„ì„ ï¬ Corpusì— ìžˆëŠ” ë§Žì€ documents ì§‘í•©ì— ë‚´ì œë˜ì–´ 있는(latent) meanings, concepts, subjects, topics ë“±ì„ ì¶”ì •í•  수 있는 구조를 ìƒì„±í•˜ëŠ” ê²ƒì„ ì˜ë¯¸ ï¬ ëŒ€í‘œì ì¸ ì˜ë¯¸ ë¶„ì„ ê¸°ë²• ï¬ Latent Semantic Analysis(LSA or LSI) ï¬ PLSI ï¬ Latent Dirichlet Allocation(LDA) ï¬ Hieararchical Dirichlet Processing(HDP)
  • 4. Semantic analysis Representation of documents Axes of a spatial Probabilistic topics - Euclidean spaceì—ì„œ ì •ì˜ ê°€ëŠ¥ - Hard to interprete - 단어ìƒì— ì •ì˜ëœ probability distribution - Interpretable
  • 5. 1. Axes of a spatial - LSA 2. Probabilistic topics - LDA 3. Bayesian Nonparametric - HDP
  • 6. LSA (Latent Semantic Analysis) ï¬ LSA(LSI)는 document dataì˜ ìˆ¨ê²¨ì§„ ì˜ë¯¸(hidden concept)를 찾아내는 기법ì´ë‹¤. ï¬ LSA는 ê°ê°ì˜ 문서(document)와 단어(word)를 벡터로 표현한다. 벡터내ì—ì„œ ê°ê°ì˜ element는 숨겨진 ì˜ë¯¸ê°€ ë  ê²ƒì´ë‹¤.
  • 7. LSA (Latent Semantic Analysis) ï¬ 3번 문서는 ì¿¼ë¦¬ì— ëŒ€í•´ì„œ 1ë“±ì´ ë  ê²ƒì´ë‹¤. ï¬ 2번, 4번 문서는 ê·¸ 다ìŒì´ ë  ê²ƒì´ë‹¤. ï¬ 1번, 5번 문서는?  ì‚¬ëžŒë“¤ì´ ì¸ì‹í•˜ê¸°ë¡œëŠ” 문서 1ë²ˆì´ ë¬¸ì„œ 5번 보다 주어진 ì¿¼ë¦¬ì— ë” ë§žëŠ” 문서ì´ë‹¤. ì»´í“¨í„°ë„ ì´ëŸ¬í•œ 추론 ê³¼ì •ì„ í•  수 있ì„까? 즉 숨겨진 ì˜ë¯¸ë¥¼ ì°¾ì„ ìˆ˜ 있ì„까? ð‘‘1 : Romeo and Juliet. ð‘‘2 : Juliet: O happy dagger! ð‘‘3 : Romeo died by dagger. ð‘‘4 : "Live free or die", that's the motto of New-Hampshire ð‘‘5 : Did you know, New-Hampshire is in New-England ð‘„ð‘¢ð‘’ð‘Ÿð‘¦ : dies and dagger
  • 8. LSA (Latent Semantic Analysis) matrix 𑨠: romeo juliet happy dagger live die free new-hampshire ð‘‘1 ð‘‘2 ð‘‘3 ð‘‘4 ð‘‘5
  • 9. LSA (Latent Semantic Analysis) matrix 𑨠: romeo juliet happy dagger live die free new-hampshire ð‘‘1 ð‘‘2 ð‘‘3 ð‘‘4 ð‘‘5
  • 10. doc-doc matrix matrix 𑨠: matrix 𑨠ð‘»: matrix ð‘¨ð‘¨ ð‘»(ð‘©): 5 × 8 8 × 5 5 × 5 1번 문서ì—는 romeo, juliet, 2번 문서ì—는 juliet, happy, dagger 즉 ê²¹ì³ì§€ëŠ” ê²ƒì´ 1ê°œì´ë¯€ë¡œ ðµ 1,2 = ðµ 2,1 = 1 matrix ð‘© = ð´ð´ 𑇠doc-doc matrix 문서 ð‘–와 문서 ð‘—ê°€ ð‘ê°œ ì˜ ê³µí†µ 단어를 가지고 있으면 ðµ ð‘–, ð‘— = ð‘
  • 11. word-word matrix 8 × 5 5 × 8 8 × 8 matrix 𑨠:matrix 𑨠𑻠: matrix 𑨠𑻠ð‘¨(ð‘ª) : julietì€ 1번, 2번 문서ì—ì„œ 나오고, dagger는 2, 3번 문서ì—ì„œ 나온다. 즉 ê²¹ì³ì§€ëŠ” ê²ƒì´ 1ê°œì´ë¯€ë¡œ ð¶ 2,4 = ðµ 4,2 = 1 matrix ð¶ = ð´ 𑇠ð´ word-word matrix 즉, 단어 ð‘–와 단어 ð‘—ê°€ ð‘ ê°œì˜ ë¬¸ì„œì—ì„œ 함께 ë°œìƒí–ˆìœ¼ë©´ ð¶ ð‘–, ð‘— = ð‘
  • 12. LSA (Latent Semantic Analysis) SVD 사용! ð´ = ð‘ˆÎ£ð‘‰ ð‘‡, ð‘ˆëŠ” ðµì˜ eigenvectorsì´ê³ , ð‘‰ëŠ” ð¶ì˜ eigenvectorsì´ë‹¤. singular value
  • 13. LSA (Latent Semantic Analysis) Reduced SVD 사용! ð´ 𑘠= 𑆠ð‘˜Î£k 𑈠𑘠𑇠, 모든 singular value를 사용할 수 없고, ìž‘ì€ ê²ƒë“¤ì€ ì œì™¸í•œë‹¤. ð‘˜ê°œì˜ 특ì´ê°’만 남기는 것ì´ë‹¤. 즉 ð‘˜ê°œì˜ "hidden concepts"만 남긴다.
  • 14. LSA (Latent Semantic Analysis) Σ2 ð‘‰2 𑇠= ð‘‰2 𑇠= Word vector
  • 15. LSA (Latent Semantic Analysis) Word vectorì˜ scatter
  • 16. LSA (Latent Semantic Analysis) ð‘ˆ2Σ2 = ð‘ˆ2 = Document vector ð‘‘1 ð‘‘2 ð‘‘3 ð‘‘4 ð‘‘5 ð‘‘1 ð‘‘2 ð‘‘3 ð‘‘4 ð‘‘5
  • 17. LSA (Latent Semantic Analysis) Document vectorì˜ scatter
  • 18. LSA (Latent Semantic Analysis) Word / Document vectorì˜ scatter
  • 19. LSA (Latent Semantic Analysis) cosine similarity = ð‘‘ ð‘–∙𑞠𑑠𑖠ð‘žð‘ž = ð‘ž1 + ð‘ž2 2 query : dagger, die result :
  • 20. LSA (Latent Semantic Analysis) Word / Document / Query vectorì˜ scatter
  • 21. 1. Axes of a spatial - LSA 2. Probabilistic topics - LDA 3. Bayesian Nonparametric - HDP
  • 22. Topic models Topic modelsì˜ ê¸°ë³¸ ì•„ì´ë””ì–´ ï¬ ë¬¸ì„œëŠ” í† í”½ë“¤ì˜ í˜¼í•© 모ë¸ì´ë©° ê° í† í”½ì€ ë‹¨ì–´ìƒì— ì •ì˜ëœ í™•ë¥ ë¶„í¬ Document Topic i Topic j Topic k Word Word Word Word Word Word Probabilistic topic models. Steyvers, M. & Griffiths, T. (2006)
  • 23. Topic models - Topic A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching, … - Topic B: 20% cats, 20% cute, 15% dogs, 15% hamster, … Doc 1 : I like to eat broccoli and bananas. Doc 2 : I ate a banana and tomato smoothie for breakfast. Doc 3 : Dogs and cats are cute. Doc 4 : My sister adopted a cats yesterday. Doc 5 : Look at this cute hamster munching on a piece of broccoli. 예제) - Doc 1 and 2 : 100% topic A - Doc 3 and 4 : 100% topic B - Doc 5 : 60% topic A, 40% topic B
  • 24. Topic models Introduction to Probabilistic Topic Models. David M. Blei (2012)
  • 25. Topic models Introduction to Probabilistic Topic Models. David M. Blei (2012) (Left) 문서ì—ì„œì˜ topic proportion (Right) 문서ì—ì„œ ë¹„ì¤‘ì´ ë†’ì•˜ë˜ í† í”½ì— ëŒ€í•˜ì—¬, 토픽별 문서내 빈ë„수가 가장 ë†’ì€ ë‹¨ì–´
  • 26. Probabilistic Topic Modelsì˜ êµ¬ì¡° 모ë¸ì˜ ì •ì˜ì— ì•žì„œ, 필요한 ë‹¨ì–´ë“¤ì˜ ìˆ˜í•™ì  í‘œê¸° ï¬ Word : 1, … , 𑉠를 ì¸ë±ìŠ¤ë¡œ 가지는 vocaburary ìƒì˜ items ï¬ Document : ð‘ wordì˜ sequence ï¬ ð•¨ = ð‘¤1, ð‘¤2, … , 𑤠ð‘ , 𑤠𑛠: wordì˜ sequenceë‚´ì—ì„œ ð‘›ë²ˆì§¸ì— 있는 word ï¬ Corpus : ð· documentsì˜ collection ï¬ ð¶ = ð•¨1, ð•¨2, … , 𕨠ð·
  • 27. Probabilistic Topic Modelsì˜ êµ¬ì¡° 문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ : 𑃠ð‘¤ð‘– = ð‘˜=1 ð¾ 𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = ð‘˜ ï¬ ð‘ƒ ð‘¤ð‘–|ð‘§ð‘– = 𑘠: 토픽 ð‘˜ì—ì„œ, 단어 ð‘¤ð‘–ì˜ probability ï¬ ê° í† í”½ì—ì„œ ì–´ë–¤ ë‹¨ì–´ë“¤ì´ ì¤‘ìš”í• ê¹Œ? ï¬ ð‘ƒ ð‘§ð‘– = 𑘠: ð‘–번째 ë‹¨ì–´ì— í† í”½ ð‘˜ê°€ 할당ë˜ëŠ” probability (즉, 토픽 ð‘—ê°€ ð‘–번째 단어를 위해 ìƒ˜í”Œë§ ë  í™•ë¥ ) 𛽠𑘠= 𑃠ð‘¤|𑧠= 𑘠: 토픽 ð‘˜ì—ì„œ, ë‹¨ì–´ë“¤ì˜ multinomial distribution 𜃠𑑠= 𑃠𑧠: 문서 ð‘‘ì—ì„œ, í† í”½ë“¤ì˜ multinomial distribution
  • 28. Latent Dirichlet Allocationì˜ ë“±ìž¥ 문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ : 𑃠ð‘¤ð‘– = ð‘˜=1 ð¾ 𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = 𑘠디리í´ë ˆ 분í¬(Dirichlet distribution)ì€ multinomial distributionì˜ ì¼¤ë ˆ 사전 분í¬ë¡œ(conjugate prior) 사용 다항 분í¬(Multinomial distribution) ð‘ = ð‘1, … , ð‘ ð¾ ì— ëŒ€í•œ Dirichlet distribution : ð·ð‘–ð‘Ÿ ð›¼1, … , 𛼠ð¾ = Γ 𑘠𛼠𑘠𑘠Γ 𛼠𑘠ð‘˜=1 ð¾ ð‘ 𑘠𛼠ð‘˜âˆ’1 ï¬ Hyperparameter ð›¼ð‘— : 문서 ð‘‘ì—ì„œ 토픽 ð‘—ê°€ ìƒ˜í”Œë§ ëœ íšŸìˆ˜ì— ëŒ€í•œ 사전 관찰 count (문서로부터 단어가 실제로 ê´€ ì°°ë˜ê¸° ì´ì „ì˜ ê°’) LDA는 Dirichlet distributionì„ ð›‰ì˜ priorë¡œ 사용 (Blei et. Al, 2003)
  • 29. Latent Dirichlet Allocationì˜ ë“±ìž¥ Latent Dirichlet Allocation. Blei et. Al (2003) LDA : Dirichlet parameter
  • 30. Variant LDAì˜ ë“±ìž¥ 문서 ð‘‘ì˜ ë‹¨ì–´ ð‘¤ð‘– 대한 ë¶„í¬ : 𑃠ð‘¤ð‘– = ð‘˜=1 ð¾ 𑃠ð‘¤ð‘–|ð‘§ð‘– = 𑘠𑃠ð‘§ð‘– = 𑘠Hyperparameter 𜂠: Corpusì˜ ë‹¨ì–´ê°€ 관찰ë˜ê¸° ì´ì „ì—, 토픽ì—ì„œ 단어가 ìƒ˜í”Œë§ ëœ íšŸìˆ˜ì— ëŒ€í•œ 사전 관찰 count Varian LDA는 symmetric Dirichlet distribution(ðœ¼)ì„ ðœ·ì˜ priorë¡œ 사용 (Griffiths and Steyvers, 2004)
  • 31. Variant LDAì˜ ë“±ìž¥ Variant LDA : Dirichlet parameter Introduction to Probabilistic Topic Models. David M. Blei (2012) 𛼠Dirichlet parameter 𜃠𑑠문서 ð‘‘ì—ì„œ 토픽 비율(proportion) 𜃠ð‘‘,𑘠문서 ð‘‘ì—ì„œ 특정 토픽 ð‘˜ì˜ proportion ð‘ 𑑠문서 ð‘‘ì—ì„œ 토픽 할당(assignment) ð‘ ð‘‘,𑛠문서 ð‘‘ì—ì„œ ð‘›-th ë‹¨ì–´ì— ëŒ€í•œ 토픽 할당 ð‘Šð‘‘ 문서 ð‘‘ì—ì„œ ê´€ì°°ëœ ë‹¨ì–´ë“¤ ð‘Šð‘‘,𑛠문서 ð‘‘ì—ì„œ ð‘›-th 단어 𛽠𑘠토픽 ð‘˜ì˜ vocaburaryì—ì„œì˜ ë¶„í¬ (단어 ì „ì²´ ì…‹ì—ì„œ ì •ì˜ëœ 토픽 ð‘˜ì˜ 분í¬) 𜂠Dirichlet parameter The plate surrounding ðœƒ ð‘‘ ê° ë¬¸ì„œ ð‘‘ì— ëŒ€í•˜ì—¬, 토픽 분í¬ì˜ sampling (ì´ ð·ê°œì˜ 문서) The plate surrounding ð›½ ð‘˜ ê° topic ð‘˜ì— 대하여, 단어 분í¬ì˜ sampling (ì´ ð¾ê°œì˜ 토픽)
  • 32. LDA 모ë¸ì˜ 변수 𜃠𑑠′ ð‘  : 𛽠𑘠′ ð‘  : Document Topic 1 Topic 2 Topic 3 … Topic ð¾ Document 1 ðœƒ1 0.2 0.4 0.0 … 0.1 Document 2 ðœƒ2 0.8 0.1 0.0 … 0.0 … … … … … … Document 𑀠𜃠𑀠0.5 0.4 0.1 … 0.0 Terms Topic 1 ð›½1 Topic 2 ð›½2 Topic 3 ð›½3 … Topic ð¾ 𛽠ð¾ Word 1 0.02 0.09 0.00 … 0.00 Word 2 0.08 0.52 0.37 … 0.03 … … … … … … Wordt 𑉠0.05 0.12 0.01 … 0.45 í•© : 1 í•© : 1 - Variant LDA versionì„ ì‚¬ìš©í•˜ê³  있으므로, ì´ versionì„ LDA ë¼ê³  지칭 하겠ìŒ
  • 33. LDAì˜ Generative process LDA는 generative modelì´ë‹¤. 1. ë¬¸ì„œì˜ ë‹¨ì–´ì˜ ê°¯ìˆ˜ ð‘ì„ Poisson 분í¬ë¥¼ ì´ìš©í•˜ì—¬ ì„ íƒí•œë‹¤. ð‘~ð‘ƒð‘œð‘–ð‘ ð‘ ð‘œð‘›(ðœ‰) 2. ë¬¸ì„œì˜ í† í”½ 분í¬(proportion) 𜃠ð‘‘를 Dirichlet(ð›¼) 분í¬ë¥¼ ì´ìš©í•˜ì—¬ ì„ íƒí•œë‹¤. 𜃠ð‘‘~ð·ð‘–ð‘Ÿð‘–ð‘â„Žð‘™ð‘’𑡠𛼠3. ë¬¸ì„œì˜ ë‹¨ì–´ ê°ê°ì— 대하여 a. 토픽 ë¶„í¬ ðœƒ ð‘‘를 ì´ìš©í•˜ì—¬, ë‹¨ì–´ì— í† í”½ì„ í• ë‹¹í•œë‹¤. ð‘ ð‘‘,ð‘›~ð‘€ð‘¢ð‘™ð‘¡ð‘–ð‘›ð‘œð‘šð‘–ð‘Žð‘™ 𜃠b. ð‘ ð‘Šð‘‘,ð‘›|ð‘ ð‘‘,ð‘›, 𛽠를 ì´ìš©í•˜ì—¬ 단어를 ì„ íƒí•œë‹¤. ì´ í™•ë¥ ë¶„í¬ëŠ” 다항분í¬ì´ë‹¤.
  • 34. LDAì˜ Generative process 예제) 1. 새로운 문서 ð·ì˜ 길ì´ë¥¼ 5ë¡œ ì„ íƒí•œë‹¤. 즉, ð· = ð‘¤1, ð‘¤2, ð‘¤3, ð‘¤4, ð‘¤5 2. 문서 ð·ì˜ 토픽 분í¬ë¥¼ 50%는 ìŒì‹(food), 50%는 ë™ë¬¼(animal)ë¡œ ì„ íƒí•œë‹¤. 3. ê° ë‹¨ì–´ì— ëŒ€í•˜ì—¬, 1. 첫번째 단어 ð‘¤1ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ broccoli를 ð‘¤1으로 ì„ íƒí•œë‹¤. 2. ë‘번째 단어 ð‘¤2ì— animal topicì„ í• ë‹¹í•œë‹¤. Animal topicì—ì„œ panda를 ð‘¤2으로 ì„ íƒí•œë‹¤. 3. 세번째 단어 ð‘¤3ì— animal topicì„ í• ë‹¹í•œë‹¤. Animal topicì—ì„œ adorable 를 ð‘¤3으로 ì„ íƒí•œë‹¤. 4. 네번째 단어 ð‘¤4ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ cherries 를 ð‘¤4으로 ì„ íƒí•œë‹¤. 5. 다섯번째 단어 ð‘¤5ì— food topicì„ í• ë‹¹í•œë‹¤. Food topicì—ì„œ eating 를 ð‘¤5으로 ì„ íƒí•œë‹¤. ð· : broccoli panda adorable cherries eating
  • 35. LDA 모ë¸ì˜ inference 관찰 가능한 문서 ë‚´ 단어 ð‘Šð‘‘,ð‘›ë¥¼ ì´ìš©í•˜ì—¬, LDA 모ë¸ì˜ 잠재 변수(hidden variable)ì¸ ë¬¸ì„œì˜ í† í”½ë¶„í¬ ðœƒ ð‘‘ ì™€ í† í”½ì˜ ë‹¨ì–´ë¶„í¬ ð›½ ð‘˜ë¥¼ 추정하는 ê³¼ì •ì´ inferenceì´ë‹¤. Generative probabilistic modelingì—서는, data는 잠재 변수(hidden variable)를 í¬í•¨í•˜ëŠ” generative processì—서부터 ë°œìƒí•˜ëŠ”것으로 다룬다. ë”°ë¼ì„œ, generative process는 observed random variableê³¼ hidden random variableì˜ ê²°í•© 확률밀ë„(joint probability distribution)를 ì •ì˜í•œë‹¤. ï¬ Observed variables : ë¬¸ì„œë‚´ì˜ ë‹¨ì–´ë“¤ ï¬ Hidden variables : ë¬¸ì„œì˜ í† í”½ 분í¬, í† í”½ì˜ ë‹¨ì–´ ë¶„í¬ (topic structure) ê²°í•© 확률밀ë„함수를 ì´ìš©í•˜ì—¬ observed variableì´ ì£¼ì–´ì¡Œì„ ë•Œ hidden variableì˜ ì¡°ê±´ë¶€ 분í¬ë¥¼ 구한다. ì´ ë¶„í¬ëŠ” 사후 확률분í¬(posterior distribution)ì´ë‹¤.
  • 36. ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð· , ð‘¤1:ð· = ð‘–=1 ð¾ ð‘ ð›½ð‘– ð‘‘=1 ð· ð‘ 𜃠𑑠ð‘›=1 ð‘ ð‘ 𑧠ð‘‘,ð‘›|𜃠𑑠ð‘ 𑤠ð‘‘,ð‘›|ð›½1:ð¾, 𑧠ð‘‘,𑛠관찰 가능 ë°ì´í„° ð‘¤1:ð·ë¥¼ 통해서 inference해야 í•  변수 : ð›½1:ð·, ðœƒ1:ð·, ð‘§1:ð· ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· = ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð· ð‘ ð‘¤1:ð· LDA 모ë¸ì˜ inference ð›½1:ð¾ 토픽 1~ð¾ì˜ vocabularyì—ì„œì˜ ë¶„í¬ ðœƒ1:ð· 문서 1~ð·ì—ì„œì˜ í† í”½ 비율 ð‘§1:ð· 문서 1~ð·ì—ì„œì˜ í† í”½ 할당 ð‘¤1:ð· 문서 1~ð·ì—ì„œ ê´€ì°°ëœ ë‹¨ì–´ë“¤ Posterior dist.
  • 37. LDA 모ë¸ì˜ inference Posterior distributionì„ êµ¬í•˜ëŠ” ê²ƒì€ ì‰¬ìš´ê²ƒì¸ê°€? 분ìžì˜ 경우를 먼저 살펴보ìž. ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· = ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð· ð‘ ð‘¤1:ð· 모든 random variableì˜ ê²°í•© í™•ë¥ ë°€ë„ í•¨ìˆ˜ëŠ”, hidden variableì´ ìž„ì˜ë¡œ 셋팅ëœë‹¤ë©´ 쉽게 계산 가능
  • 38. LDA 모ë¸ì˜ inference ë¶„ëª¨ì˜ ê²½ìš°ë¥¼ 살펴보ìž. ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·|ð‘¤1:ð· = ð‘ ð›½1:ð¾, ðœƒ1:ð·, ð‘§1:ð·, ð‘¤1:ð· ð‘ ð‘¤1:ð· Observed variableì˜ ì£¼ë³€ ë°€ë„함수(marginal probability) - ìž„ì˜ì˜ topic modelì—ì„œ, observed corpus를 ë³¼ 수 ìžˆì„ í™•ë¥ ì„ êµ¬í•˜ëŠ” 것 - 모든 hidden topic structureì˜ ê°€ëŠ¥í•œ 경우(instantiation)를 구하고, ê²°í•© í™•ë¥ ë°€ë„ í•¨ìˆ˜ë¥¼ summation 가능한 hidden topic sturcture는 지수ì ìœ¼ë¡œ 많다. ë”°ë¼ì„œ 해당 ë°€ë„함수를 구하는 ê²ƒì€ ë§¤ìš° 어렵다. Modern probabilistic models, Bayesian statisticsì—서는 ë¶„ëª¨ì˜ ë¶„í¬ ë•Œë¬¸ì— posterior를 계산하는 ê²ƒì´ ì–´ë µë‹¤. ë”°ë¼ì„œ posterior를 효과ì ìœ¼ë¡œ 추정하는 ê¸°ë²•ì— ëŒ€í•œ 연구가 ë§Žì´ ì´ë£¨ì–´ì§€ê³  있다. ë”°ë¼ì„œ, topic modeling algorithmsì—ì„œë„ posterior distributionì„ ì¶”ì •í•˜ê¸° 위한 ê¸°ë²•ì„ í™œìš©í•œë‹¤. - sampling based method - variational method
  • 39. Difficulty of deriving marginal probability ð‘ ð‘¤1:ð· ï¬ Topic mixture ðœƒì˜ joint distribution (parameter : ð›¼, ð›½) ð‘ ðœƒ, ð•«, 𕨠ð›¼, 𛽠= ð‘ ðœƒ|𛼠ð‘›=1 ð‘ ð‘ 𑧠ð‘›|𜃠ð‘ 𑤠ð‘›|𑧠ð‘›, ð›½ ï¬ Documentì˜ marginal distribution ð‘ ð•¨|ð›¼, 𛽠= ð‘ ðœƒ|𛼠ð‘›=1 ð‘ 𑧠𑛠ð‘ 𑧠ð‘›|𜃠ð‘ 𑤠ð‘›|𑧠ð‘›, 𛽠ð‘‘ðœƒ ï¬ Corpusì˜ probability ð‘ ð·|ð›¼, 𛽠= ð‘‘=1 ð‘€ ð‘ 𜃠ð‘‘|𛼠ð‘›=1 ð‘ 𑑠𑧠ð‘‘ð‘› ð‘ 𑧠ð‘‘ð‘›|𜃠𑑠ð‘ 𑤠ð‘‘ð‘›|𑧠ð‘‘ð‘›, 𛽠ð‘‘ðœƒ ð‘‘ ì—¬ê¸°ì„œì˜ notationì€ Latent Dirichlet Allocation. Blei et. Al (2003)ì„ ì°¸ê³ 
  • 40. Algorithm for extracting topics Gibbs sampling ð‘· ð’›ð’Š = ð’‹|ð’›âˆ’ð’Š, ð‘¤ð‘–, ð‘‘ð‘–,∙ ∠ð¶ 𑤠𑖠𑗠ð‘‰ð¾ + 𜂠ð‘¤=1 𑉠ð¶ ð‘¤ð‘— ð‘‰ð¾ + ð‘‰ðœ‚ ð¶ ð‘‘ð‘– ð‘— ð·ð¾ + 𛼠ð‘¡=1 ð¾ ð¶ ð‘‘ ð‘– ð‘¡ ð·ð¾ + ð‘‡ð›¼ 문서ì—ì„œ ð‘–ë²ˆì§¸ì— ë‚˜ì˜¤ëŠ” 단어 ð‘¤ì˜ í† í”½ì´ ð‘—ì¼ í™•ë¥ ì— ì˜í–¥ì„ 미치는 요소 - 요소 1 : 토픽 ð‘—ì— í• ë‹¹ëœ ì „ì²´ 단어 중ì—ì„œ 해당 ë‹¨ì–´ì˜ ì ìœ ìœ¨ì´ 높ì„ìˆ˜ë¡ ð‘—ì¼ í™•ë¥ ì´ í¬ë‹¤. - 요소 2 : wð‘–ê°€ ì†í•œ 문서 ë‚´ 다른 단어가 토픽 ð‘—ì— ë§Žì´ í• ë‹¹ë˜ì—ˆì„ìˆ˜ë¡ ð‘—ì¼ í™•ë¥ ì´ í¬ë‹¤. ð‘§ð‘– = 𑗠문서ì—ì„œ ð‘–ë²ˆì§¸ì— ë‚˜ì˜¤ëŠ” 단어 ð‘¤ì— 토픽 ð‘—ê°€ 할당 ð•«âˆ’ð‘– ð‘–번째 단어를 제외한 다른 ë‹¨ì–´ë“¤ì— ëŒ€í•œ 토픽 할당 ð‘¤ð‘– 단어 index ð‘‘𑖠문서 index ∙ 다른 ì •ë³´ ë° observed information ð¶ ð‘¤ð‘— ð‘Šð¾ 단어 ð‘¤ê°€ 토픽 ð‘—ì— í• ë‹¹ëœ íšŸìˆ˜ (현재 ð‘–는 제외) ð¶ ð‘‘ð‘— ð·ð¾ 문서 ð‘‘ì˜ ë‹¨ì–´ë“¤ 중ì—ì„œ 토픽 ð‘—ì— í• ë‹¹ëœ íšŸìˆ˜ (현재 ð‘–는 제외) ðœ‚ í† í”½ì˜ ë‹¨ì–´ ë¶„í¬ ìƒì„±ì— 사용ë˜ëŠ” Dirichlet parameter ð›¼ ë¬¸ì„œì˜ í† í”½ ë¶„í¬ ìƒì„±ì— 사용ë˜ëŠ” Dirichlet parameter Smoothing
  • 41. Algorithm for extracting topics Doc 0 : ð‘§0,0, ð‘§0,1, ð‘§0,2, ð‘§0,3 Doc 1 : (ð‘§1,0, ð‘§1,1, ð‘§1,2) Doc 2 : (ð‘§2,0, ð‘§2,1, ð‘§2,2, ð‘§2,3) Doc 3 : (ð‘§3,0, ð‘§3,1, ð‘§3,2, ð‘§3,3, ð‘§5,4) Doc 4 : (ð‘§4,0, ð‘§4,1, ð‘§4,2, ð‘§4,3, ð‘§4,4) Doc 5 : (ð‘§5,0, ð‘§5,1, ð‘§5,2, ð‘§5,3, ð‘§5,4, ð‘§5,5) 예제) ð‘§ð‘–,ð‘— : ð‘–번째 ë¬¸ì„œì— ð‘— í† í”½ì´ í• ë‹¹ëœ ê²ƒì„ ë‚˜íƒ€ë‚´ëŠ” 확률변수 1. í™•ë¥ ë³€ìˆ˜ì— ëžœë¤í•˜ê²Œ í† í”½ì„ í• ë‹¹ 2. ð‘§0,0ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§0,0ì˜ ê°’ì„ ì—…ë°ì´íŠ¸ 3. ð‘§0,1ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§0,1ì˜ ê°’ì„ ì—…ë°ì´íŠ¸ …. 4. ð‘§5,5ì„ ì œì™¸í•œ ê°’ë“¤ì„ í† ëŒ€ë¡œ ð‘§5,5ì˜ ê°’ì„ ì—…ë°ì´íŠ¸ 5. 확률변수가 수렴할 때까지 반복
  • 42. Algorithm for extracting topics ð¶ ð‘‰ð¾ = ð¶11 ð¶12 … ð¶21 ð¶22 … … … … ð¶1𑘠… ð¶1ð¾ ð¶2𑘠… ð¶2ð¾ … … … ð¶ ð‘£3 ð¶ ð‘£3 … … … … ð¶ ð‘‰1 ð¶ ð‘‰2 … ð¶ ð‘£ð‘˜ … ð¶ ð‘£ð¾ … … … ð¶ ð‘‰ð‘˜ … ð¶ ð‘‰ð¾ ð¶ ð·ð¾ = ð¶11 ð¶12 … ð¶21 ð¶22 … … … … ð¶1𑘠… ð¶1ð¾ ð¶2𑘠… ð¶2ð¾ … … … ð¶ ð‘‘3 ð¶ ð‘‘3 … … … … ð¶ ð·1 ð¶ ð·2 … ð¶ ð‘‘𑘠… ð¶ ð‘‘ð¾ … … … ð¶ ð·ð‘˜ … ð¶ ð·ð¾
  • 43. Generative model vs. Statistical inference
  • 44. 최ì ì˜ 토픽 수 Perplexity ï¬ Language modelingì—ì„œ 주로 컨벤션으로 사용한다. ï¬ ì¼ë°˜ì ìœ¼ë¡œ perplexity는 exp ð» ð‘ ë¡œ 표현ëœë‹¤. ð» ð‘ 는 ð‘ì˜ ì—”íŠ¸ë¡œí”¼ë¥¼ ì˜ë¯¸í•œë‹¤. ï¬ LDAì—ì„œ ì¶”ì •ëœ í† í”½ 정보를 ì´ìš©í•˜ì—¬ ë‹¨ì–´ì˜ ë°œìƒ í™•ë¥ ì„ ê³„ì‚°í•˜ì˜€ì„ ë•Œ, í™•ë¥ ê°’ì´ ë†’ì„ìˆ˜ë¡ generative process를 제대로 설명한다고 본다. ð‘ƒð‘’ð‘Ÿð‘ð‘™ð‘’ð‘¥ð‘–ð‘¡ð‘¦ ð¶ = exp − ð‘‘=1 ð· log ð‘ 𕨠𑑠ð‘‘=1 ð· ð‘ð‘‘ ï¬ ð‘ 𕨠𑑠: í† í”½ì˜ ë‹¨ì–´ë¶„í¬ ì •ë³´ì™€ 문서내 í† í”½ì˜ ë¹„ì¤‘ ì •ë³´ì˜ ê³±ì„ ì´ìš©í•˜ì—¬ 계산 ï¬ ð‘ 𕨠𑑠는 í´ìˆ˜ë¡ 좋으므로, perplexity는 ìž‘ì„ìˆ˜ë¡ ì¢‹ë‹¤.
  • 45. 최ì ì˜ 토픽 수 Topic coherence ï¬ ì‹¤ì œë¡œ ì‚¬ëžŒì´ í•´ì„하기ì—(interpretability) ì í•©í•œ í‰ê°€ ì²™ë„를 만들기 위해 ì œì‹œëœ ì—¬ëŸ¬ ì²™ë„들 중 하나 ï¬ Newmanì€ ë‰´ìŠ¤ì™€ ì±… ë°ì´í„°ë¥¼ 수집하여 토픽 모ë¸ë§ì„ 실시. ê·¸ 결과로 나온 í† í”½ë“¤ì´ ìœ ì˜ë¯¸í•œì§€ 수작업으로 ì ìˆ˜í™”. 그리고 ì´ë ‡ê²Œ 매겨진 ì ìˆ˜ì™€ 가장 유사한 결과를 낼 수 있는 ì²™ë„를 제시. ï¬ í† í”½ 모ë¸ë§ 결과로 나온 ê°ê°ì˜ 토픽ì—ì„œ ìƒìœ„ ð‘ê°œì˜ ë‹¨ì–´ë¥¼ ì„ íƒí•œ 후, ìƒìœ„ 단어 ê°„ì˜ ìœ ì‚¬ë„를 계산하여, 실 제로 해당 í† í”½ì´ ì˜ë¯¸ì ìœ¼ë¡œ ì¼ì¹˜í•˜ëŠ” 단어들ë¼ë¦¬ 모여있는지 íŒë‹¨ 가능 ï¬ ë‹¤ì–‘í•œ 버전 ï¬ NPMI ï¬ UMass ï¬ UCI ï¬ c_v Newman, D., Lau, J. H., Grieser, K., & Baldwin, T. (2010, June). Automatic evaluation of topic coherence. In Human Language Technologies
  • 46. 최ì ì˜ 토픽 수 Topic coherence : c_v version M Röder (2015) Exploring the Space of Topic Coherence Measures
  • 47. 1. Axes of a spatial - LSA 2. Probabilistic topics - LDA 3. Bayesian Nonparametric - HDP
  • 48. Dirichlet Process LDA는 í† í”½ì˜ ìˆ˜ ð‘˜ê°€ 필요하다. ë°ì´í„°ì— 대하여, ì´ ë°ì´í„°ì— 몇 ê°œì˜ í† í”½ì´ ì¡´ìž¬í•˜ëŠ”ì§€ 미리 아는 ê²ƒì€ ì–´ë µë‹¤. ì´ ë¶€ë¶„ì´ LDAì˜ ì•½ì  ì¤‘ 하나ì´ë‹¤. 하지만 우리는 ë°ì´í„°ì— ë”°ë¼ ì ì ˆí•œ 토픽 개수를 ì°¾ì„ ìˆ˜ 있으며 ì´ê²ƒì€ Dirichlet Process를 ì´ìš©í•˜ì—¬ 구할 수 있다. Dirichlet distributionì€ ì£¼ì–´ì§„ 하ì´í¼íŒŒë¼ë¯¸í„°ì— ë”°ë¼ ë‹¤í•­ë¶„í¬ë¥¼ ìƒì„±í•´ì£¼ëŠ” 분í¬ë¼ê³  í•  수 있다. ë”°ë¼ì„œ 디리í´ë ˆ 분í¬ë¥¼ 사전분í¬ë¡œ ë‘ë©´, 다항분í¬ë¥¼ 따르는 사후확률분í¬ë¥¼ 쉽게 구할 수 있다. (디리í´ë ˆ ë¶„í¬ ëŠ” 다항분í¬ì˜ 켤레분í¬ì´ë‹¤.)
  • 49. Dirichlet Process ð‘‹ê°€ 디리í´ë ˆ 분í¬ë¥¼ 따른다고 가정하ìž. 즉 ð‘‹~ð·ð‘–ð‘Ÿ(1,2,1)ë¼ê³  하ìž. 여기서 𑘠= 3ì´ë‹¤. ë”°ë¼ì„œ ì´ ë¶„í¬ì—ì„œ í‘œë³¸ì„ ì¶”ì¶œí•œë‹¤ë©´ 3ê°œì˜ ì„±ë¶„ìœ¼ë¡œë§Œ ì´ë£¨ì–´ì§„, 그리고 ì›ì†Œì˜ í•©ì´ 1ì¸ ìƒ˜í”Œë“¤ì´ ìƒì„±ë  것ì´ë‹¤. ð•©1 = 0.2,0.5,0.3 ð•©2 = 0.1,0.6, 0.3 … 디리í´ë ˆ 분í¬ë¥¼ 서로 다른 ð‘˜ê°’ì´ ë‚˜ì˜¬ 수 있는 분í¬ë¡œ í™•ìž¥ì„ í•œ ê²ƒì´ ë‹¤ìŒì˜ Dirichlet Processì´ë‹¤. ð‘‹~ð·ð‘ƒ ð›¼, ð» ð›¼ëŠ” 집중 파ë¼ë¯¸í„°(concentration parameter)ì´ê³  ð»ëŠ” 모분í¬ì´ë‹¤. ð›¼ê°€ 0ì— ê°€ê¹Œìš¸ìˆ˜ë¡ ð‘‹ì˜ 분í¬ëŠ” ëª¨ë¶„í¬ ì˜ í‰ê· ì„ 중심으로 모ì´ê³ , ð›¼ê°€ ì»¤ì§ˆìˆ˜ë¡ ëª¨ë¶„í¬ì˜ í‰ê· ì—ì„œ 멀어지게 ëœë‹¤. YW The Et al.(2005) Hierarchical Dirichlet Processes
  • 50. Dirichlet Process 𛼠= 1 𛼠= 10 𛼠= 100 𛼠= 1000 https://en.wikipedia.org/wiki/Dirichlet_process Concentration parameter 𛼠를 변화시켜 ì–»ì€, ð‘‹ì˜ 분í¬ì—ì„œ ì¶”ì¶œëœ ìƒ˜í”Œë“¤ì´ë‹¤. í‘œë³¸ì— í¬í•¨ëœ ð‘˜(막대 개수)는 ê°™ì€ ð›¼ë¼ë„ 다르다.
  • 51. Chinese Restaurant Process í•œ ì¤‘êµ­ì§‘ì´ ìžˆê³ , ê·¸ 중국집ì—는 무수히 ë§Žì€ ì‹íƒì´ 있다. ì‹íƒì—는 무수히 ë§Žì€ ìžë¦¬ê°€ 있어서 ì†ë‹˜ì´ ì–¼ 마든지 ì•‰ì„ ìˆ˜ 있다. 단, ì†ë‹˜ì´ ì‹íƒì— ì•‰ì„ ë•Œ 아래와 ê°™ì€ ê·œì¹™ì´ ìžˆë‹¤. ï¬ ì†ë‹˜ì€ ì‹íƒì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì‹íƒì— 앉ì„지 ì„ íƒí•œë‹¤. ï¬ ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì‹íƒì˜ 첫 ì†ë‹˜ì´ ì•‰ì„ ë•Œ ëª¨ë¶„í¬ ð»ì—ì„œ ìŒì‹ 하나를 뽑ìŒìœ¼ë¡œì„œ 결정한다. ï¬ ì‹íƒì˜ ì¸ê¸°ë„는 앉아 있는 ì‚¬ëžŒì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , ì†ë‹˜ì€ 비어있는 ì‹íƒì„ 고를 수 있다. 빈 ì‹íƒì˜ ì¸ê¸°ë„는 집 중 파ë¼ë¯¸í„° ð›¼ì™€ 비례한다. 첫번째 ì†ë‹˜ì€ 비어있는 ì‹íƒì— ì•‰ì„ ê²ƒì´ë‹¤. ë‘번째 ì†ë‹˜ì€ 첫번째 ì‹íƒì— 앉거나, 비어있는 새로운 ì‹íƒì— 앉는다. 만약 ð›¼ê°€ í¬ë‹¤ë©´ 비어있는 ì‹íƒì„ 고를 í™•ë¥ ì´ ë†’ì•„ì§„ë‹¤. (ë˜ëŠ” ì‹íƒì˜ ì¸ê¸°ê°€ 낮아ë„) ì´ë ‡ê²Œ ì†ë‹˜ì´ 무한히 ê³„ì† ë“¤ì–´ì˜¤ë‹¤ë³´ë©´ ì‹íƒì˜ 개수가 정해지고(countably infinite), ì‹íƒì˜ ì¸ê¸°ë„ ë¹„ìœ¨ë„ ì¼ì • ê°’ì— ìˆ˜ë ´í•˜ê²Œ ëœë‹¤. ì´ë ‡ê²Œ ì–»ì€ ì¸ê¸°ë„ì˜ ë¹„ëŠ” 모분í¬ê°€ ð», 집중 파ë¼ë¯¸í„°ê°€ ð›¼ì¸ 디리í´ë ˆ 프로세스 ì—ì„œ ë½‘ì€ ìƒ˜í”Œì´ ëœë‹¤.
  • 52. Hierarchical Dirichlet Process DPì˜ ì• ë¡œì‚¬í•­ : 만약 ì¤‘êµ­ì§‘ì´ í•œ ê³³ì´ ì•„ë‹ˆê³  여러곳ì´ë¼ê³  ìƒê°í•˜ìž. ì–´ë–¤ ìŒì‹ì´ 올려진 ì‹íƒì„ 찾아서 ê°ê°ì˜ 중국집ì—ì„œ ê·¸ ìŒì‹ì´ 얼마나 ì¸ê¸° 있는지 확ì¸í•˜ê³  싶다고 하ìž. 문제는 여기서 ë°œìƒí•œë‹¤. ê° ì¤‘êµ­ ì§‘ì— ì‹íƒì´ 몇 ê°œ 있는지 모르고, ê° ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 있는지 모른다. ì–´ë–¤ ìŒì‹ì´ 서로 다른 ì‹ë‹¹ì—ì„œ ê°™ì´ ë“±ìž¥í•œë‹¤ëŠ” ë³´ìž¥ë„ ì—†ë‹¤. ì‹ë‹¹ ê°„ ìŒì‹ 비êµê°€ 불가능하다. 그래서 í•™ìžë“¤ì€ Hierarchical Dirichlet Process를 제안했다. ðº0~ð·ð‘ƒ ð›¾, ð» ðºð‘—~ð·ð‘ƒ(ð›¼, ðº0) 모분í¬ë¥¼ 따르는 ìƒìœ„ 디리í´ë ˆ 프로세스를 ìƒì„±í•˜ê³ , ì´ ë””ë¦¬í´ë ˆ 프로세스를 모분í¬ë¡œ 하는 하위 ë””ë¦¬í´ ë ˆ 프로세스를 여러 ê°œ ìƒì„±í•œë‹¤. ì´ëŸ°ì‹ìœ¼ë¡œ 하위 디리í´ë ˆ 프로세스를 서로 ì—°ê²° 시켜준다.
  • 53. Hierarchical Dirichlet Process YW The Et al.(2005) Hierarchical Dirichlet Processes
  • 54. CRP using HDP 중국집 ì²´ì¸ì ì´ 있다. ì²´ì¸ì ì—는 무수히 ë§Žì€ ì‹íƒì´ 있고, ê·¸ ì‹íƒì—는 무수히 ë§Žì€ ìžë¦¬ê°€ 있다. ê° ì²´ì¸ ì ë§ˆë‹¤ ì†ë‹˜ì´ 한명씩 꾸준히 들어와서 ì‹íƒì— ê³¨ë¼ ì•‰ëŠ”ë‹¤. ê°ê°ì˜ ì²´ì¸ì ì— ìŒì‹ì„ 배분해주는 중국집 본 사가 있다. ê° ì²´ì¸ì ì— ì†ë‹˜ì´ 빈 ì‹íƒì— 앉게 ë˜ë©´, ì§ì›ì´ 본사로 가서 ì‹íƒì— 올릴 ìŒì‹ì„ 골ë¼ì˜¨ë‹¤. 본 사ì—는 ìŒì‹ì´ 담겨있는 아주 í° ì ‘ì‹œê°€ 무한히 있고, ê° ì ‘ì‹œëŠ” 충분히 커서 무한히 ìŒì‹ì„ í’€ 수 있다.
  • 55. CRP using HDP [ðº0~ð·ð‘ƒ ð›¾, ð» ] ï¬ ì§ì›ì€ ì ‘ì‹œì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì ‘ì‹œì—ì„œ ìŒì‹ì„ 풀지 ê²°ì • ï¬ ì ‘ì‹œì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì ‘ì‹œì—ì„œ 첫 ì§ì›ì´ ìŒì‹ì„ í’€ ë•Œ, ëª¨ë¶„í¬ ð»ì—ì„œ ìŒì‹ì„ 하나 뽑ìŒìœ¼ë¡œ ê²°ì • ï¬ ì ‘ì‹œì˜ ì¸ê¸°ë„는 ìŒì‹ì„ 푸는 ì§ì›ì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , ì§ì›ì´ 비어있는 접시를 고를 ìˆ˜ë„ ìžˆë‹¤. ì ‘ì‹œì˜ ì¸ê¸°ë„는 집중 파ë¼ë¯¸í„° ð›¾ì™€ ìƒê´€ìžˆë‹¤. [ðºð‘—~ð·ð‘ƒ(ð›¼, ðº0)] ï¬ ì†ë‹˜ì€ ì‹íƒì˜ ì¸ê¸°ë„를 고려해서 ì–´ëŠ ì‹íƒì— 앉ì„지를 고른다. ï¬ ì‹íƒì— ì–´ë–¤ ìŒì‹ì´ 올려질지는 ì‹íƒì— 첫 ì†ë‹˜ì´ 앉으면 ì§ì›ì„ 본사로 ë³´ë‚´ì„œ 결정하고, ê·¸ ìŒì‹ì˜ ë¶„í¬ ì—­ì‹œ ì§ì›ë“¤ì´ ì ‘ì‹œì—ì„œ ìŒì‹ì„ 푸는 ë¶„í¬ ðº0를 따른다. (ì‹íƒì—는 1ê°œì˜ ìŒì‹ë§Œ 올ë¼ê°„다) ï¬ ì‹íƒì˜ ì¸ê¸°ë„는 앉아 있는 ì‚¬ëžŒì˜ ìˆ˜ì— ë¹„ë¡€í•˜ê³ , 집중 파ë¼ë¯¸í„° ð›¼ì— ë”°ë¼ì„œ 비어있는 ì‹íƒì„ ê³ ë¥¼ìˆ˜ë„ ìžˆë‹¤.
  • 56. CRP using HDP YW The Et al.(2005) Hierarchical Dirichlet Processes
  • 57. HDP for infinite topic models ï¬ ì¤‘êµ­ì§‘ ì²´ì¸ì  – Documents ï¬ ë³¸ì‚¬ì—ì„œ 결정해주는 ìŒì‹ – Topic ï¬ ê°ê°ì˜ ì†ë‹˜ë“¤ – Words in a document https://www.cs.cmu.edu/~epxing/Class/10708-14/scribe_notes/scribe_note_lecture20.pdf

Editor's Notes

  • #2: http://www.inf.ed.ac.uk/teaching/courses/tnlp/2016/Lingzhe.pdf
  • #41: https://4four.us/article/2014/10/lda-parameter-estimation https://www.4four.us/article/2014/11/markov-chain-monte-carlo
  • #47: https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/