端端舝

耟疏湮悝 �𤩸禭ロ�丟犯奴失炵
樓枘惝
ロ�失弁本旦撮胍及凶戶及
氾旦玄戊伊弁扑亦件釬傖

ロ惆失弁本旦炵及旃噶匹隅講腔丿�毛俴丹源楊
掛゜及囀⺍ 2
? ロ�失弁本旦炵及旃噶
每丐月伉末奈旦X井日公及珨窒毛午勻化仁月旃噶
每ロ�𨈘坰ㄛ芢沎ㄛ斮�𡛟湘ㄛ卅升

? 嗣仁及旃噶及30%~40%反灍歠ㄗ沌啐�ㄘ
每丐月醴腔卞�仄化掛絞卞謎中忒僇毛妸蚚仄化中月井毛
𨈘偩允月卞反啐�毛俴丹斛猁互丐月
? 灍扔奈申旦及源互啐�毛笭�ㄐˋ
每左件仿奶件啐�及�恅及嗣仁反Microsoft午譙Yahoo
每升及Web扔奈申旦匹手A/B氾旦玄反゜都腔卞俴歹木化中月
每扔奈申旦毛蜊囡仄方丹午佷勻凶日斛內隅講趙互А戶日木月
? 政袨及␁忒楊午陔仄中␂忒楊互丐勻凶�磁﹜␂忒楊互妸蚚今木月井反啐�棒菴
每 An Academic in a Data Wonderland: Five Lessons from
Commercial Search @ NTCIR-14 Conference
? 啐�毛�嬡午允月湮悝諒忨互Facebook匹2爛嶲巨件斥瓦失午仄化�P中凶磊歠毛
僕衄
啐�及笭猁俶 3

ロ�失弁本旦炵及旃噶及啐� 4
? ⻌薯
每𨈘坰ㄩ弁巨伉
每芢沎ㄩ �惁薩窃
每斮�𡛟湘ㄩ斮�
? 堤薯
每𨈘坰ㄩ恅𤩸仿件平件弘
每芢沎ㄩ妀ⅲ仿件平件弘
每斮�𡛟湘ㄩ隙湘
? 啐�硌㻢
每𨈘坰?芢沎ㄩ羥磁薹?婬政薹
每斮�𡛟湘ㄩ ROUGE
⻌薯1 ⻌薯2
啐��1 啐��2
扑旦氾丞
堤薯1 堤薯2
啐�硌㻢
ⅸ歙�

Yahoo眭𨫆渝及𨈘坰扑旦氾丞方曰手謎中𨈘坰扑旦氾丞毛釬欠丹
http://www.openliveq.net/
ロ�失弁本旦炵及啐�瞰 5
? ⻌薯
每平奈伐奈玉弁巨伉
? 2,000弁巨伉
? 堤薯
每斮�仿件平件弘
? 羥磁俶瓚隅
每弁仿它玉末奈扑件弘
? 95,700恅𤩸

乒田奶伙𨈘坰及凶戶及𨈘坰磐彆猁廣正旦弁
http://mobileclick.org/
ロ�失弁本旦炵及啐�瞰 6
? ⻌薯
每平奈伐奈玉弁巨伉
? 200弁巨伉
? 堤薯
每𨈘坰磐彆猁廣
? 羥磁俶瓚隅
每 iUnit (傻恅)
? ~6,000恅

? 升丹支勻化蚚砩允月井ˋ
每價掛及源�ㄩ
掛楓卞云中化扑旦氾丞卞⻌薯今木月褫夔俶互詢中⻌薯毛腢少屯五
? 啐�匹腕日木凶磐彆午灍蕣卞瞳蚚今木凶午五及俶夔卞船互匹五卅中方丹卞
每赻煦匹蕉尹月 ℅
每灍扔奈申旦及伕弘井日腢少 ♀
每 �卞蕉尹化手日丹 →
? 睡�蚚砩允月屯五井ˋ
每郔輪及玄伊件玉反50?100�
每緙�腔𨈘隅卞云仃月𨈘堤薯互坋煦卞詢仁卅月�杅卞允月午謎中
? 統蕉ㄩ☆ロ�失弁本旦啐�源楊�: 𨈘坰巨件斥件及筳餜及凶戶卞 (戊伕瓜扦,
2015), 嬴凝殍珩翍★
⻌薯ㄗ1/2ㄘ 7

⻌薯ㄗ2/2ㄘ 8
? 弁巨伉伕弘井日升及方丹卞⻌薯
毛腢少井ˋ
每剠釬鮋喲堤楊 →
? 螿僅毛蕉𩬅仄卅中午Tail卞⑴月
? 螿僅毛蕉𩬅允月午Head卞⑴月
每𦵴趙喲堤楊 ♀
? 市氾打伉仍午ㄛ螿僅仍午卞歹仃化ㄛ
羥絞卅杅毛剠釬鮋卞腢亼
? Head支Tail卞杻忷卅弁巨伉互嗣中仇午
井日ㄛTorso及心井日腢少�磁手丐月
螿僅
弁巨伉
☆ロ�𨈘坰啐�★☆儔飲★
萎倰腔卅弁巨伉伕弘及僅杅煦票
螿僅剠蕉𩬅
螿僅蕉𩬅
螿僅
弁巨伉
萎倰腔卅弁巨伉伕弘及僅杅煦票
螿僅仍午卞
剠釬鮋喲堤

? Yahoo眭𨫆渝井日☆�忒匹儕𦷰仄化★�燴腔卞�觳及丐月弁
巨伉毛壺五2,000弁巨伉毛腢隅
灍瞰ㄩ NTCIR-14 OpenLiveQ-2 Task 9
ID 弁巨伉
OLQ-0001 田奶左甩扒奈玉
OLQ-0002 民矛永玄
OLQ-0003 少升丹
OLQ-0004 皿伉它旦
OLQ-0005 twice
OLQ-0006 賃曰膨
OLQ-0007 gta5

<queries>
<query>
<qid>0001</qid>
<content>Halloween picture</content>
<description>Halloween is coming. You want to find some pictures about
Halloween to introduce it to your children.</description>
</query>
<query>
<qid>0002</qid>
<content>calendar</content>
<description>You need to find a convenient online calendar.</description>
</query>
<query>
<qid>0003</qid>
<content>women's clothing winter</content>
<description>Winter is coming. You want to look for information on women's
clothes for yourself.</description>
</query>
...
灍瞰ㄩ NTCIR-14 WWW-2 Task 10
摽扴及羥磁俶瓚隅及凶戶卞
ロ�猁А毛漪戶月仇午手丐月

? 跪⻌薯卞方勻化腕日木凶堤薯及丹切ㄛ升木互跪⻌薯及ロ�猁А
毛㦤凶允及井ㄗ羥磁允月及井ㄘ毛瓚隅允月釬𦲀
? 啐�氪互☆堤薯★午☆ロ�猁А★毛掀屯羥磁仄化中月井𢜪戶月
每ロ�猁Аㄩ丐月醴腔毛絻傖允月凶戶卞ロ�毛腕凶中午佷丹郗А
羥磁俶瓚隅 11
儔飲紝嫖
交奈扒
弁巨伉
儔飲匹紝嫖仄凶中仃升
中中紝嫖華毛眭曰凶中
ロ�猁А
踢憨侁
籵毞憨
堤薯
啐�氪
羥磁
祥羥磁

? 羥磁俶
每丐月堤薯互ロ�猁А毛㦤凶允僅磁中
? 杻卞☆�觳羥磁俶★互蚚中日木月
每 �觳羥磁俶ㄩロ�猁А卞方勻化斛猁午今木月☆�觳★互ㄛ
丐月堤薯卞升及最僅�扴今木化中月井
每瞰ㄩロ�猁А☆儔飲及紝嫖華毛眭曰凶中★
? 羥磁僅詢ㄩ踢憨侁卞勾中化𤩸井木凶矢奈斥
? 羥磁僅笢ㄩ輪諗及侁卞�啜卞勾中化𤩸井木凶矢奈斥
? 羥磁僅腴ㄩ籵毞憨卞勾中化𤩸井木凶矢奈斥
? 輪爛匹反僇蕆腔羥磁俶ㄗ詢羥磁ㄛ窒煦羥磁ㄛ祥羥磁卅升ㄘ互
𣷣仁蚚中日木月
? 恚杅及啐�氪卞方勻化瓚隅今木月屯五
羥磁俶 12

僇蕆腔羥磁俶ㄗNTCIR-9 INTENT-1 Task及瞰ㄘ 13
? Highly relevant (2萸)
每 The document fully satisfies the
information need
? Relevant (1萸)
每 The document only partially
satisfies the information need
? Non-relevant (0萸)
踢憨侁
籵毞憨
堤薯
輪諗及
云侁
Highly relevant
Relevant
Non-relevant

? 黃蕾卞腕日木凶啐�互升木仁日中珨祡仄化中月井毛�呾允月
每 Inter-rater agreement午網壬木月
? 測桶腔卅硌㻢ㄩ市永由�S杅 ? =
? ??? ?
1?? ?
? 僇蕆腔羥磁俶及�磁反笭心葆五市永由�S杅卅升毛瞳蚚
羥磁俶瓚隅及陓螸俶啐� 14
啐�氪1互
羥磁午啐�
啐�氪1互
祥羥磁午啐�
啐�氪2互
羥磁午啐� ? =30 ? =11
啐�氪2互
祥羥磁午啐� ? =10 ? =60
? ? =
?+?
?+?+?+?
(珨祡仄凶賃磁)
? ? = ? ?+ + ? ?? (凶引凶引珨祡允月復薹)
? ?+ =
?+?
?+?+?+?
?+?
?+?+?+?
? ?? =
?+?
?+?+?+?
?+?
?+?+?+?

? ?1 ≒ ? ≒ 1匹ㄛ醴假午仄化反
每 < 0: no agreement
每 0每0.20: slight agreement
每 0.21每0.40: fair agreement
每 0.41每0.60: moderate agreement
每 0.61每0.80: substantial agreement
每 0.81每1: almost perfect agreement
? ��腔卅覜�午仄化ㄛ? < 0.6 及�磁反眕狟及𤍈癩互丐月
每啐�氪及掖劓ロ�卞湮五仁甡湔允月
↙啐�毛假隅今六月凶戶卞啐�氪杅毛�支仄凶源互中中
每啐�氪卞羥磁俶瓚隅及價𨃨互�歹勻化中卅中
↙啐�及價𨃨毛隴恅趙仄掊隴毛蜊囡允月
每啐�氪互淩醱醴卞啐�仄化中卅中ㄗ弁仿它玉末奈扑件弘卅升ㄘ
↙啐�氪杅毛坋煦卞�支允井ㄛ啐�氪及妸蚚價𨃨毛�仄仁允月
市永由�S杅及賤� 15

? 眕狟及方丹卅磐彆互 ? = 0.6葆輪及磐彆
? 磊歠腔卞反井卅曰啐�互珨祡仄卅中午 ? > 0.6反絻傖匹五卅中
市永由�S杅及灍瞰 16
啐�氪1互
羥磁午啐�
啐�氪1互
祥羥磁午啐�
啐�氪2互
羥磁午啐� 30 11
啐�氪2互
祥羥磁午啐� 10 60
啐�氪1互
羥磁午啐�
啐�氪1互
祥羥磁午啐�
啐�氪2互
羥磁午啐� 90 3
啐�氪2互
祥羥磁午啐� 3 5
? = 0.59 ? = 0.59

? 堤薯及意�杅互屾卅中�磁
↙堤薯今木丹月手及允屯化毛羥磁俶瓚隅
每瞰ㄩ 100意�及堤薯仄井卅中�磁
? 堤薯及意�杅互屾卅仁卅中�磁
↙恚杅扑旦氾丞及堤薯ㄗ及奻弇k璃ㄘ毛皿奈伉件弘ㄗ睿摩磁ㄘ
? 皿奈伉件弘匹腕日木卅井勻凶堤薯反湔婓仄卅井勻凶午蕉尹
啐�仄化中仁仇午卞卅月
羥磁俶瓚隅及�砓 17
⻌薯1
扑旦氾丞A
扑旦氾丞B
1 3 6
6 8 1
1 3 6 8皿奈伉件弘
堤薯
仇木毛羥磁俶瓚隅及
�砓午允月

? 羥磁薹
每 P = (堤薯笢及羥磁及杅) / (堤薯杅)
每瞰: 扑旦氾丞A＊s P = 2/3ㄛ扑旦氾丞B＊s P = 1/3
? 婬政薹
每 R = (堤薯笢及羥磁及杅) / (允屯化及羥磁及杅)
? 允屯化及羥磁及杅 ˊ 皿奈伉件弘仄凶磐彆笢及羥磁及杅ㄛ午蕉尹月
每瞰: 扑旦氾丞A＊s P = 2/2ㄛ扑旦氾丞B＊s P = 1/2
? 僇蕆腔羥磁俶及�磁反丐月僇蕆眕奻毛羥磁午仄化�呾
啐�硌㻢ㄩ羥磁薹?婬政薹 18
⻌薯1
扑旦氾丞A
扑旦氾丞B
1 3 6
6 8 1
堤薯羥磁

? 奻�及�磁ㄛ扑旦氾丞A＊s P = 扑旦氾丞B＊s P = 1/3
? 堤薯卞�弇互勾中化中月�磁ㄛ
扑旦氾丞A及源毛手勻午詢仁啐�仄凶中
每扑旦氾丞A反1弇卞羥磁恅𤩸毛�弇葆仃匹五化中月凶戶
每扑旦氾丞A及1弇反詢羥磁ㄗ2萸ㄘ及恅𤩸匹丐月凶戶
↙ normalized Discounted Cumulative Gain (nDCG)
啐�硌㻢ㄩnDCG (1/4) 19
⻌薯2
扑旦氾丞A
扑旦氾丞B
1 8 6
8 6 3
堤薯詢羥磁
ㄗ2萸ㄘ
羥磁
ㄗ1萸ㄘ

? nDCG
每仿件平件弘午僇蕆腔羥磁俶毛蕉𩬅仄凶啐�硌㻢
每 Web𨈘坰巨件斥件卅升匹手瞳蚚今木化中月
DCG@? ? =
?=1
?
?(? ?)
1
log(? + 1)
nDCG@? ? = DCG@?(?)/DCG@?(??
)
每 ?ㄩ堤薯ㄗ仿件平件弘ㄘ
每 ??
ㄩ羥磁僅互詢中�卞恅𤩸毛�K屯化釬勻凶燴砑腔卅堤薯
每 ?ㄩ市永玄左白ㄗ隅杅ㄝ仇及�弇引匹及磐彆毛蕉𩬅ㄘ
每 ? ?ㄩ ?及?楓醴及恅𤩸ㄗ賒砉卅升匹手謎中ㄘ
每 ?(? ?)ㄩ ?及?楓醴及恅𤩸及羥磁僅

? ? = 3午允月ㄛ log及菁毛2午允月ㄗ賃霛允月互菁反磐彆卞荌�仄卅中ㄘ
? DCG@3 扑旦氾丞A及堤薯 = ? ?1
1
log 1+1
+ ? ?2
1
log 2+1
+ ? ?3
1
log 3+1
= 2
1
log 2
+ 0
1
log 3
+ 0
1
log 4
=
2
log 2
= 2
? DCG@3 扑旦氾丞B及堤薯 = ? ?1
1
log 1+1
+ ? ?2
1
log 2+1
+ ? ?3
1
log 3+1
= 0
1
log 2
+ 0
1
log 3
+ 1
1
log 4
=
1
log 4
=
1
2
⻌薯2
扑旦氾丞A
扑旦氾丞B
1 8 6
8 6 3
堤薯詢羥磁
ㄗ2萸ㄘ
羥磁
ㄗ1萸ㄘ

? 燴砑腔卅堤薯??反1, 3, 6 (or 8)
每皿奈伉件弘磐彆毛羥磁僅及詢中�卞�K屯木壬謎中
? DCG@3 ??
= 2
1
log 2
+ 1
1
log 3
+ 0
1
log 4
= 2 + 0.63 = 2.63
? nDCG@3 扑旦氾丞A及堤薯 =
2
2.63
= 0.76
? nDCG@3 扑旦氾丞B及堤薯 =
0.5
2.63
= 0.19
? 磐�ㄩ⻌薯2卞�仄化反ㄛnDCG匹啐�仄凶午五☆扑旦氾丞A > 扑旦氾丞B★
⻌薯2
扑旦氾丞A
扑旦氾丞B
1 8 6
8 6 3
堤薯詢羥磁
ㄗ2萸ㄘ
羥磁
ㄗ1萸ㄘ

啐�硌㻢反凶仁今氏丐月及匹�磁卞𡛟元化腢屯月午謎中 23
硌㻢 AP RBP Q nDCG RR ERR
𨈘坰砩� Informational Navigational
羥磁俶媼� 嗣� 嗣� 嗣� 媼� 嗣�
淏�趙 ♀ ℅ ♀ ♀ ♀ → (nERR)
��𦑩 ℅ ℅ ℅ ℅ ♀ ♀
瓚�e夔薯 ♀ ℅ ♀ ♀ ℅ ℅
瞳蚚薹 ⊕ → → ⊕ ⊕ ♀
? 淏�趙ㄩ郔湮�互1卞淏�趙今木化中月
? ��𦑩ㄩ丐月恅𤩸互羥磁匹丐月�磁ㄛ公木方曰狟弇及恅𤩸及��互腴狟
? 瓚�e夔薯ㄩ 2勾及扑旦氾丞及�輾毛瓚�e匹五月夔薯
? 瞳蚚薹ㄩ樓枘及翋紝
統蕉ㄩ☆ロ�失弁本旦啐�源楊�: 𨈘坰巨件斥件及
筳餜及凶戶卞 (戊伕瓜扦, 2015), 嬴凝殍珩翍★

? 玄疋永弁ㄛ恅𤩸摩磁ㄛ羥磁俶瓚隅毛引午戶化
☆氾旦玄戊伊弁扑亦件★午網少
? ゜掛匹反NTCIR午中丹午仇欠匹中欠中欠鼠嶱今木化中月
每 http://research.nii.ac.jp/ntcir/index-ja.html
氾旦玄戊伊弁扑亦件 24
玄疋永弁
ㄗ⻌薯ㄘ
恅𤩸摩磁羥磁俶瓚隅
𨈘坰扑旦氾丞
IndexedInput
堤薯
Evaluate
氾旦玄戊伊弁扑亦件
☆儔飲紝嫖★
☆少升丹★
詢羥磁
祥羥磁

? ⻌薯毛5�仄井蚚砩仄化中卅中
每扑旦氾丞互旃噶�砓卅日失它玄ㄛ交奈扒互旃噶�砓卅日本奈白
? 扑旦氾丞毛1勾仄井蚚砩仄化中卅中
ㄗ憝窣旃噶互卅中井日掀廌匹五卅中ㄘ
每婬政薹支nDCG反恚杅扑旦氾丞互卅仃木壬砩庤毛卅今卅中硌㻢
每𣶹懂及忒楊卞��g卅蜊謎毛樓尹化羥蚚匹五卅中井蕉尹月
每枑偶扑旦氾丞及杻卞馱痲仄凶午仇欠毛壺仁ㄛ引凶反ㄛ�謹趙仄凶扑
旦氾丞毛瞳蚚允月
? 皿奈伉件弘毛仄卅中匹跪扑旦氾丞及堤薯毛啐�
每萎倰腔卅岈嘟
每 2勾及啐��砓互肮元扑旦氾丞井日堤薯今木凶仇午互歹井勻化仄引丹
�磁ㄛ啐�卞田奶失旦互井井曰支允中
方仁丐月悷曰?方仁丐月斮� 1/3 25

? 啐�氪互1�仄井中卅中
每六戶化2�ㄛ匹五木壬3�眕奻及✽杅�
每 2�中卅中午羥磁俶瓚隅及斮毛引勻凶仁娗�匹五卅中
每 3�中月午嗣杅𢜪互匹五月方丹卞卅月
? nDCG及燴砑腔卅堤薯毛1勾及扑旦氾丞及堤薯井日釬傖
每掛絞卞嗣中祡韜腔嶲綃中No. 1
每 nDCG互詢中午五ㄗ0.6毛閉尹月卅升ㄘ反蛁砩
? 羥磁俶及僇蕆毛100僇蕆ㄗ100萸㦤萸ㄘ卞仄凶
每婬政俶及醱井日�觳互硌晡今木化中月
? 棒及゜ㄛ肮元�互肮元啐�毛仄凶午五升木幻升萸杅毛婬政褫夔井ˋ
每 2, 3, 5僇蕆丐凶曰互𣷣仁蚚中日木化中月

? ☆�互啐�允月卅氏化翋紝腔匹準褪悝腔元扎卅中匹允井ˋ★
每𨈘坰反�互瞳蚚允月扑旦氾丞卅及匹�互啐�允月及反絞凶曰ゴ
? 公仇引匹�赻极及旃噶互筳氏匹中卅中午手晟尹月
每翋紝俶午褪悝俶互卅兮井磐太勾仃日木月及反婬政俶互腴中仇午卞蚕懂
允月午佷歹木月互ㄛ公及凶戶及inter-rater agreement
? ☆翍氪互啐�仄化鼠淏卅啐�互匹五月氏匹允井ˋ★
每皿奈伉件弘互羥ピ卞俴歹木化中木壬礂砩腔卅啐�及豻華反丐引曰卅中
? ☆啐�氪互2靡仄井中卅中及匹允井ˋ★
☆灍瞳蚚氪午及墊褩互丐月及匹反卅中匹允井ˋ★
每 �觳羥磁俶及啐�卞反��船互⻌月豻華反丐引曰卅中
每 Inter-rater agreement互詢仃木壬��船互屾卅中午ヽ渾匹五月

? ロ惆失弁本旦炵及旃噶匹隅講腔丿�毛俴丹源楊毛掊隴
? ⻌薯
每 50-100�及⻌薯毛ㄛ褫夔匹丐木壬伕弘井日𦵴趙喲堤楊卞方勻化腢廿丹
? 羥磁俶瓚隅
每 2靡眕奻及啐�氪卞2~5僇蕆及羥磁僅毛瓚隅仄化手日云丹
每恚杅扑旦氾丞及堤薯毛皿奈伉件弘仄凶磐彆卞�仄化羥磁俶瓚隅毛俴云丹
每 Inter-rater agreement毛�呾仄化羥磁俶瓚隅及隅講腔啐�毛仄方丹
? 啐�硌㻢
每僇蕆羥磁僅匹仿件平件弘及啐�毛俴丹�磁及郔場及腢亼眱午仄化nDCG
毛𨈘�仄方丹
引午戶 28

氾旦玄戊伊弁扑亦件釬傖灍犛
29

ヤ諾恅𤪕井日゜掛及華源及�赽毛𨈘坰允月扑旦氾丞毛�慷仄啐�
扑瓜伉左
? 恚杅及𨈘坰扑旦氾丞毛�慷
? 皿奈伉件弘仄凶堤薯卞�仄化羥磁俶瓚隅
? 羥磁俶瓚隅及磐彆卞價勿五Precision, nDCG毛�呾
? 升及扑旦氾丞互�木化中月井磐�勿仃月

? 政灍腔卅秶廣井日仇及啐�源楊卞反狟�及�觳互丐曰引允
每弁巨伉互屾卅中
每弁巨伉及腢隅互礂砩腔
每皿奈伉件弘摽卞磐彆毛仿件母穴奶朮仄化中卅中
每啐�氪互1靡仄井中卅中ㄛ
公及凶戶卞ㄛ羥磁俶瓚隅及陓螸俶互童悵匹五卅中
每啐�硌㻢及腢隅卞跦�互卅中
灍蕣及啐�及蕣卞反仍蛁砩仁分今中
蛁砩岈� 31

? Anaconda反ㄛ戊件由奶伙𦤦Python由永弗奈斥及奪燴蚚末白玄它尼
失匹允ㄝ Anaconda毛籵仄化ㄛ�〝卅Python由永弗奈斥ㄗ仿奶皮仿
伉及方丹卅手及ㄘ毛Windows匹手Mac匹手��g卞奶件旦玄奈伙允月
仇午互匹五引允ㄝ
? Windows午Mac匹反屾仄分仃奶件旦玄奈伙源楊互�卅曰引允ㄝ狟�
及矢奈斥毛統蕉卞Anaconda毛奶件旦玄奈伙仄化仁分今中ㄗOptional
午𤩸中化丐月窒煦反鵁壬仄化手謎中ㄘㄝ允匹卞Python卞�仄中ㄛ
Python互奶件旦玄奈伙今木化中月�磁反鵁壬仄化手�中引六氏ㄝ
? Python 3.x午Python 2.x互丐曰引允互ㄛPython 3.x芢𠾴匹允ㄝ
? Windows
每 https://docs.anaconda.com/anaconda/install/windows
? Mac
每 https://docs.anaconda.com/anaconda/install/mac-os
Anaconda及奶件旦玄奈伙ㄗ僕籵ㄘ 32

? Windows
每旦正奈玄丟瓦亙奈ㄗ酘狟及Windows穴奈弁ㄘ↙☆Anaconda Navigator★毛
腢亼仄ㄛ☆Anaconda Navigator★互お�允月井復庲仄引仄斤丹ㄗお�卞屾
仄媆嶲互井井曰引允ㄘ
? Mac
每 Launchpad↙☆Anaconda Navigator★毛腢亼仄ㄛ☆Anaconda Navigator★
互お�允月井復庲仄引仄斤丹ㄗお�卞屾仄媆嶲互井井曰引允ㄘ
奶件旦玄奈伙今木凶Anaconda及復庲ㄗ僕籵ㄘ 33

1. https://java.com/ja/ 尺失弁本旦仄☆剠蹋Java及母它件
伕奈玉★↙☆肮砩仄化剠蹋母它件伕奈玉毛嶱宎★毛弁伉永弁
2. 母它件伕奈玉仄凶白央奶伙毛灍俴仄☆奶件旦玄奈伙★
3. 正奈立瓜伙毛お�仄☆java -version★午⻌薯ㄛ
☆java version ※1.8.0_211§ ＃★卅升午桶尨今木木壬傖髡
每 Windows及�磁ㄛ☆Anaconda Prompt★毛瞳蚚
Java及奶件旦玄奈伙 (for Windows & Mac) 34
↘及方丹卞桶尨今木木壬Java
互奶件旦玄奈伙今木化月

1. https://www.elastic.co/jp/downloads/elasticsearch 井日赻煦及OS蚚
及Elasticsearch毛母它件伕奈玉
2. 母它件伕奈玉仄凶zip白央奶伙 (for Windows)ㄞtar.gz白央奶伙 (for Mac)毛
桯嶱仄疑五卅�垀卞痄�今六月ㄗe.g. 犯旦弁玄永皿ㄘ
每 Mac及�磁ㄛ正奈立瓜伙井日☆tar fzxv ***.tar.gz★匹桯嶱褫夔
3. 正奈立瓜伙毛嶱五ㄛ☆cd★毛闒妏仄化2匹桯嶱仄凶白巧伙母笢及bin白巧伙
母卞痄�
每瞰ㄩ cd C:?Users?kato?Desktop?elasticsearch-7.2.0?bin
每瞰ㄩ cd /Users/kato/Desktop/elasticsearch-7.2.0/bin
4. ☆elasticsearch.bat★ (for Windows)ㄞ☆elasticsearch★ (for Mac)
毛灍俴
Elasticsearch及奶件旦玄奈伙 (for Windows & Mac) 35

Elasticsearch及お� (for Windows) 36
お�眻ゴ
お�笢

Elasticsearch及お�復庲ㄗ僕籵ㄘ 37
? 皮仿它扒匹 http://localhost:9200/ 毛嶱仁
↘及方丹卞桶尨今木木壬
Elasticsearch お�傖髡

? Elasticsearch白巧伙母笢及☆config?elasticsearch.yml★白央奶伙及
藺帣卞狟�及4俴毛袚樓
? 正奈立瓜伙奻匹Elasticsearch白巧伙母笢及bin白巧伙母卞痄�仄
毛灍俴ㄗ゜掛惤倛颷匼賤昴け皿仿弘奶件ㄘ
每 Windows及�磁ㄛ elasticsearch-plugin.bat
? 奻�灍囥摽卞Elasticsearch毛婬お�仄化云仁
每 Ctrl+C (for Windows)ㄞCommand+C (for Mac)匹珨僅砦戶化婬灍俴
Elasticsearch及偞隅 (for Windows & Mac) 38
http.max_content_length: 350mb
cluster.routing.allocation.disk.threshold_enabled: false
http.cors.allow-origin: '*'
http.cors.enabled: true
$ elasticsearch-plugin install analysis-kuromoji

? Docker
每戊件氾瓜奪燴末白玄它尼失
每戊件氾瓜ㄩ甡湔仄磁丹恚杅及伉末奈旦毛引午戶凶手及
? 眕狟ㄛMac/Linux交奈扒ㄛ云方太ㄛWindows 10 Pro交奈扒
砃仃及忒�ㄗWindows 10 Home反帤�𡛟ㄘ
Docker�ㄗ奻�氪ˋ砃仃ㄘ 39
戊件氾瓜
Elasticsearch
Java elasticsearch.yml
? 𣶹懂
每厥切綅太互仄卞仁中
每 �e及虐噫匹�慷允月及互醱給ㄗ踏隙及弗奈旦ㄘ
? Docker
每戊件氾瓜�g弇匹僕衄褫夔
每 �e及虐噫匹�慷互⺍眢

? Windowsㄗ褣眢僅詢ㄘ
每猁璃
? Windows 10 64bit: Pro, Enterprise or Educationㄛ 4GB眕奻及丟乒伉ㄛ
? �砑趙及衄�趙: https://docs.docker.com/docker-for-
windows/troubleshoot/#virtualization-must-be-enabled
每母它件伕奈玉
? https://hub.docker.com/editions/community/docker-ce-desktop-windows
? Mac ㄗ褣眢僅眢ㄘ
每猁璃
? 2010爛眕蔥及MacㄛmacOS Sierra 10.12眕蔥及macOSㄛ4GB眕奻及丟乒伉ㄛ
VirtualBox 4.3.30眕ゴ互奶件旦玄奈伙今木化中卅中仇午
每母它件伕奈玉
? https://hub.docker.com/editions/community/docker-ce-desktop-mac
Docker及奶件旦玄奈伙 (for Docker) 40

# version反嗣屾�卅月ㄝ珂螹及☆$★反⻌薯仄卅中
$ docker --version
Docker version 18.09, build c97c6d6
$ docker-compose --version
docker-compose version 1.24.0, build 8dd22a9
$ docker-machine 每version
docker-machine version 0.16.0, build 9ba6da9
Docker互奶件旦玄奈伙今木化中月井復庲ㄗfor Dockerㄘ 41

# 眕狟毛⻌薯仄☆Hello from Docker!★午匹木壬傖髡
$ docker run hello-world
Hello from Docker!
This message shows that your installation appears to
be working correctly.
hello-world Docker奶丟奈斥及お�ㄗfor Dockerㄘ 42

# 蚚砩今木凶Dockerfile毛母它件伕奈玉
$ git clone https://github.com/mpkato/test_collection_lecture.git
$ cd test_collection_lecture/elasticsearch_docker
# ElasticSearch/Kibana及docker image毛お�允月
$ docker-compose up
# 凶勻凶仇木分仃ㄐ
Docker及お�ㄗfor Dockerㄘ 43

? ヤ諾恅𤪕犯奈正
每 (aozorabunko_json_data.zip)
? mpkato/test_collection_lecture
每 https://github.com/mpkato/test_collection_lecture
每 ☆Clone or download★↙☆Download ZIP★↙桯嶱
? git clone https://github.com/mpkato/test_collection_lecture.git 手褫
? ヤ諾恅𤪕犯奈正毛痄�今六狟�及方丹卅�傖卞仄化云仁
ヤ諾恅𤪕犯奈正芘⻌𨃨� 44
test_collection_lecture
- aozorabunko_json_data
- insert_aozorabunko.py
- mapping.json
- ＃

$ python insert_aozorabunko.py
Index 'aozorabunko' has been deleted
Index 'aozorabunko' has been initialized
Inserting data from
'/Users/kato/dev/aozorabunko_json_data/aozorabunko.json.000' ...
Inserted 20000 documents
Inserting data from
'/Users/kato/dev/aozorabunko_json_data/aozorabunko.json.001' ...
Inserted 20000 documents
＃
Inserted 199923 documents in total
ヤ諾恅𤪕及犯奈正毛芘⻌ㄗ僕籵ㄘ 45

? test_collection_lecture/webui/index.html 毛皮仿它扒匹嶱仁
? 弁巨伉毛⻌薯仄化磐彆互腕日木木壬OK
坰竘葆仃今木凶恅𤩸及復庲ㄗ僕籵ㄘ 46

? 狟�及4飲庈毛⻌薯午允月ㄩ
每儔飲
每湮筅
每𦤹嗷
每崥銨
? 羥磁僅及價𨃨
每詢羥磁 (2萸)
? 謜及�赽及��互鏡井木化中月
每窒煦羥磁 (1萸)
? 謜及�赽互屾仄分仃鏡井木化中月
每祥羥磁 (0萸)
? 謜及�赽互鏡井木化中卅中
⻌薯?羥磁僅及價𨃨 47

? 扑旦氾丞1: 飲庈靡毛公及引引弁巨伉午仄化瞳蚚
每儔飲↙☆儔飲★
每湮筅↙☆湮筅★
每𦤹嗷↙☆𦤹嗷★
每崥銨↙☆崥銨★
? 扑旦氾丞2, ＃,扑旦氾丞k: 飲庈靡卞�g惤T毛袚樓
每儔飲↙☆儔飲 T★
每湮筅↙☆湮筅 T★
每𦤹嗷↙☆𦤹嗷 T★
每崥銨↙☆崥銨 T★
每瞰ㄩ ☆謜★毛袚樓
? 儔飲↙☆儔飲謜★
? 湮筅↙☆湮筅謜★
? 𦤹嗷↙☆𦤹嗷謜★
? 崥銨↙☆崥銨謜★
掀廌�砓扑旦氾丞 48

? Elasticsearch及犯白巧伙玄仿件平件弘忒楊反BM25
每 BM25 (Okapi BM25): https://en.wikipedia.org/wiki/Okapi_BM25
每丐月弁巨伉?卞�仄ㄛ恅𤩸毛眕狟及宒及�互詢中�卞仿件平件弘
? score ?, ? = ?=1
?
IDF ??
TF ? ?,? (?1+1)
TF ? ?,? +?1 1??+?
?
avgd
每 IDF ?? = log
??DF ? ? +0.5
DF ? ? +0.5
每 ??: 弁巨伉?及?楓醴及�g惤ㄗ ? 反弁巨伉笢及�g惤杅ㄘ
每 ?: 恅𤩸ㄗ ? 反恅𤩸墿=恅𤩸笢及�g惤杅ㄘ
每 DF ?? : 丐月恅𤩸戊奈由旦笢匹�g惤??毛漪戈恅𤩸杅
每 ?: 丐月恅𤩸戊奈由旦笢及恅𤩸杅
每 TF ??, ? : 恅𤩸?卞云仃月�g惤??及堤政螿僅
每 ?1, ?: 由仿丟奈正ㄗ犯白巧伙玄ㄩ ?1 = 1.2, ? = 0.75ㄘ
每 avgd: 丐月恅𤩸戊奈由旦笢及恅𤩸墿及ⅸ歙
方曰逃桯腔卅掀廌�砓扑旦氾丞 1/3 49

? Elasticsearch及�e及仿件平件弘忒楊
每 https://www.elastic.co/guide/en/elasticsearch/reference/current
/index-modules-similarity.html
每瞰ㄩ晟惤乒犯伙ㄗDirichlet旦丞奈斥件弘唳ㄘ
? score ?, ? = ? ! ?=1
?
?(??|?)
每恅𤩸?及晟惤乒犯伙井日弁巨伉?互汜傖今木月復薹
? 晟惤乒犯伙午仄化嗣�煦票及交瓦弘仿丞乒犯伙毛瞳蚚
每凶分仄ㄛ弁巨伉?笢及�g惤卞肮元�g惤互卅中�磁毛�隅
? ? ? ? =
?? ?,? +??(?|?)
? +?
ㄗDirichlet旦丞奈斥件弘ㄘ
每 ? ? ? = ?=1
?
TF ?,? ?
?=1
?
|? ?|
ㄗ丐月恅𤩸戊奈由旦卞云仃月�g惤? 及汜傖復薹ㄘ
每丐月恅𤩸卞云仃月�g惤? 及汜傖復薹毛ㄛ恅𤩸戊奈由旦卞云仃月汜傖復薹毛岈ゴ復薹ㄗ煦
票午仄化Dirichlet煦票毛瞳蚚ㄘ午仄凶奻匹郔湮岈摽復薹芢隅ㄗ≧郔蚧芢隅ㄘ仄凶手及
? BM25方曰手俶夔互謎中午五互丐月日仄中

? 晟惤乒犯伙ㄗDirichlet旦丞奈斥件弘唳ㄘ毛瞳蚚允月
? ranking.json
? 奻�§type§毛疑五卅仿件平件弘忒楊卞劐尹
update_ranking.py 毛灍俴允木壬仿件平件弘忒楊互劐歹月
每凶分仄ㄛ �g惤毛袚樓允月源楊午�蚚允月仇午
? 1惤及弁巨伉及�磁ㄛ幻午氏升劐趙互卅中凶戶
{
"index": {
"similarity": {
"default": {
"type": "LMDirichlet"
}
}
}
}

? 恅𤩸仿件平件弘腎嶕白巧奈丞
每
每跪弁巨伉奻弇5璃及磐彆毛腎嶕
恚杅扑旦氾丞及仿件平件弘毛皿奈伉件弘 52
跪⻌薯匹腕日木凶
恅𤩸ID毛戊疋奈仄化惿葆
奻弇5璃及恅𤩸ID

? 皿奈伉件弘磐彆
每及☆Pooling★扑奈玄
? 羥磁俶瓚隅
每 ☆Pooling★扑奈玄卞忒煦仃仄化�⻌仄化中仁
羥磁俶瓚隅及忒� 53
0-2及羥磁僅毛�⻌

? 啐�硌㻢及�呾
? pyNTCIREVAL
每 README: https://github.com/mpkato/pyNTCIREVAL
每 pyNTCIREVAL is a python version of NTCIREVAL developed by
Dr. Tetsuya Sakai http://www.f.waseda.jp/tetsuya/sakai.html
每仿件平件弘啐�及凶戶及汁奈伙
? ゜掛惤及弘仿白毛𤩸仁𨃨�
斛猁卅Python Package (仿奶皮仿伉)及奶件旦玄奈伙 54
$ pip install pyNTCIREVAL
$ pip install japanize-matplotlib

? 卞失弁本旦仄☆白央奶伙★↙☆倛宒毛硌隅仄化母它件伕奈玉★↙☆市件穴
Еピ曰及�ㄗ.csv?政婓及扑奈玄ㄘ★
? 跪扑奈玄匹俴中公木冗木☆Rankings.csv★☆Pooling.csv★午仄
羥絞卅白巧伙母卞悵湔
扑旦氾丞堤薯午羥磁俶瓚隅磐彆及母它件伕奈玉 55

? ☆Rankings.csv★☆Pooling.csv★及丐月白巧伙母匹狟�戊穴件玉毛灍俴
? Jupyter反ㄛ跪意皿伕弘仿立件弘晟惤毛��腔卞灍俴匹五月末白玄它尼失匹
允ㄝ Jupyter Notebook匹反ㄛ皮仿它扒奻匹戊奈玉毛�摩匹五ㄛ犯奈正及桶
尨?��趙支戊奈玉及珨窒婬灍俴卅升互⺍眢卞匹五引允
Jupyter Notebook及お� 56
$ jupyter notebook
弁伉永弁匹白央奶伙靡劐載褫夔
悵湔
本伙袚樓
腢亼笢及本伙及戊奈玉毛灍俴 (Shift+Enter)
本伙
本伙
本伙ㄩ皿伕弘仿丞戊奈玉卅升毛⻌薯允月薆郖ㄝ本伙仍午卞煦仃化戊奈玉毛灍俴匹五月ㄝ

? 衵奻及☆New�★毛弁伉永弁仄☆Python 3★毛腢亼
陔仄中Notebook及釬傖 57

? https://github.com/mpkato/test_collection_lecture/blob
/master/test_collection_lecture.ipynb
1. 枑堤今木凶扑旦氾丞堤薯☆Rankings.csv★ㄛ云方太ㄛ
羥磁俶瓚隅磐彆☆Pooling.csv★及掂心煋心
2. pyNTCIREVAL匹啐�硌㻢毛�呾
3. 啐�磐彆毛matplotlib匹��趙
扑旦氾丞啐�及霜木 58

? �恅𨈘坰巨件斥件毛釬月卅日Elasticsearch互郔輪及霜俴
? 灍歠?虐噫及婬政俶毛詢戶月凶戶卞Docker毛魂蚚仄方丹
? 苤�耀及羥磁俶瓚隅反誑中卞�f薯仄化支木月午�薹腔
每引勻凶仁及匼�及�卞失伙田奶玄匹支勻化手日丹及反井卅曰湮劐
每郔輪反弁仿它玉末奈扑件弘午中丹腢亼眱手丐月互ⅲ斮奪燴互湮劐
? 啐�卞反鼠嶱今木化中月汁奈伙毛妏云丹
每杻卞nDCG及赻薯匹及灍蚾反岈嘟及啋
? ☆啐�硌㻢及ⅸ歙�★眕俋手捼屯化心方丹
每弁巨伉仍午及�A砃支謎井勻凶瞰ㄛ�井勻凶瞰卅升
灍犛引午戶 59

端端舝

ロ惆失弁本旦撮扲及凶戶及氾旦玄戊伊弁扑亦件釬傖

Recommended

More Related Content

What's hot (20)

Similar to ロ惆失弁本旦撮扲及凶戶及氾旦玄戊伊弁扑亦件釬傖 (20)

More from kt.mako (9)

ロ惆失弁本旦撮扲及凶戶及氾旦玄戊伊弁扑亦件釬傖