端端舝

嘐衄桶珋喲堤卞勾中化
2018/07/30
𡌂儔湮悝馱悝炵旃噶褪撮胍磊�煾謹悝�馴 M1
� ��

嘐衄桶政喲堤午反
2
[隅膽]
恅梒笢井日瞎�靡支弊靡卅升及杻隅及市氾打伉及惤§嘐衄桶政§毛喲堤允月正旦弁﹝
[醴腔]
�〝卅嘐衄桶政毛�呾辻卞方勻化赻�腔卞喲堤仄凶中井日﹝
政灍及氾平旦玄卞反湮講及嘐衄桶政互漪引木化中月互﹜棗𤩸卞腎嶕今木化中卅中嘐衄桶政互湔婓允月
�磁﹜倛颷匼賤昴卅升毛俴丹媆卞悷曰毛竘五お仇允井日﹝
公及凶戶卞�〝卅嘐衄桶政毛棗𤩸卞腎嶕允月斛猁互丐月互﹜嘐衄桶政反媆岈覦〝陔仄中手及互汜引木﹜
公及杅手壩湮卅及匹﹜�忒匹公木日毛腎嶕允月仇午反嬪褣匹丐月井日﹝

統蕉�恅
1. Sharnagat Rahul, Named Entity Recognition: A Literature Survey, Bombay:Indian Institute of
Technology, 2014.
3

嘐衄桶政喲堤及お埭
4
? 1995爛卞嶱井木凶菴鞠隙Message
Understanding Conference卞化Sundheim
互枑偶仄凶﹝
? 仇及媆卞枑偶今木凶忒楊匹反嘐衄桶政
毛眕狟卞煦仃化中凶﹝
ENAMEX: �昜﹜瞎�﹜�垀
TIMEX : ゜葆﹜媆嶲
NUMEX : 踢謞﹜掀薹﹜講

嘐衄桶政喲堤及お埭
5
? 眕蔥﹜�〝卅玉丟奶件及嘐衄桶政失用氾奈扑亦件互枑晟今
木化五凶﹝
? Lee et al. (2006) 反酘�及方丹卞蕆𦵴腔卅嘐衄桶政及煦
�毛枑釭仄化中月﹝
? 瓦亙奈亥奈弁湮悝及憝跦日手肮�卅嘐衄桶政及煦�毛枑
釭仄化中月﹝
? https://sites.google.com/site/extendednamedentity711/
? 嘐衄桶政及弁仿旦毛軑䛐允月手及丐木壬﹜BIO, BIOES及正
弘幼件弘毛允月正旦弁手丐月

嘐衄桶政喲堤及失皿伕奈民
6
? 諒�丐曰悝�﹜圉諒�丐曰悝�﹜諒�卅仄悝�卞湮�e今木月﹝
? 諒�丐曰悝�
HMM﹜巨件玄伕疋奈郔湮趙乒犯伙﹜SVM﹜𢜪隅躂﹜CRF
? 圉諒�丐曰悝�
皮奈玄旦玄仿永疋件弘楊
? 諒�卅仄悝�
緙��I燴

諒�丐曰悝�-HMM
7
? 蕎木穴伙戊白乒犯伙反Bike et al. (1999)卞方勻化荎惤及嘐衄
桶政喲堤卞場戶化羥蚚今木凶﹝
? 跪�g惤卞嘐衄桶政井升丹井及正弘毛葆迵仄化中五�g惤蹈(W)
毛迵尹凶媆卞郔手復薹及詢中嘐衄桶政蹈(NC)毛抻允﹝
??? Pr ?? ? = ???
?=1
?
Pr(???|??)Pr(????1|???1)
? 駙絞凶曰匹抻坰允月午瞎心磁歹六惇逃仄化仄引丹互﹜Bike日反
IdentiFinder午中丹�薹腔卅�呾忒楊毛嶱逃﹝MUC-6 dataset卞
�仄化accuracy 94.9%毛絻傖
? 公及摽﹜Zhou and Su (2002)互�g惤午正弘及赻撩眈誑ロ�講
(PMI)毛蚚中凶党淏毛俴中﹜MUC-6 dataset匹96.6%, MUC-7
dataset匹94.1﹝
??? ?, ? = ???
Pr(?, ?)
Pr ? Pr(?)
?? ?, ? =
?,?
Pr ?, ? ???
Pr(?, ?)
Pr ? Pr(?)

諒�丐曰悝� - 巨件玄伕疋奈郔湮趙乒犯伙
8
? ��犯奈正井日復薹腔卅乒犯伙毛芢隅允月媆卞﹜迵尹日木凶
秶廣及狟匹及巨件玄伕疋奈互郔湮卞卅月方丹卅乒犯伙毛芢隅允
月忒楊﹝�杅�倛乒犯伙午手晟歹木月﹜
? Curran and Clark (2003)反仿弘仿件斥亙及帤隅�\杅楊毛蚚中化
酘及方丹卞隅宒趙仄﹜末白玄穴永弁旦隙䔝卞䔝覂今六﹜申奈丞
扔奈民毛蚚中化嘐衄桶政喲堤正旦弁毛俴勻凶﹝
? CoNLL-2003及犯奈正本永玄卞�仄化﹜荎惤匹84.49%﹜玉奶汁惤
匹68.48%毛�嶕仄凶﹝
?? ?|? =
1
?托
exp
?=1
?
?? ?? ?, ?
?托 =
?,?
exp
?=1
?
?? ?? ?, ?
?? ?, ? =
?=1
?
Pr(??|?1 ＃ ? ?)

諒�丐曰悝� 每 SVM (SVC)
9
? McNamee and Mayfield (2002) 反ゴ摽及�g惤ロ�支公木日及
恅趼及意�ㄛⅲ啅午中勻凶ロ�毛杻釾講午仄化8806手及杻釾
講毛庨釬仄化扔禾奈玄矛弁正奈穴扑件匹嘐衄桶政喲堤毛�心凶﹝
? CoNLL-2002及犯奈正本永玄卞�仄化旦矢奶件惤匹60.97﹜左仿件
母惤匹59.92毛�嶕仄化中月﹝

諒�丐曰悝� - CRF
10
? CRF (Conditional Random Fields)反由正奈件庲舑及煦珧匹
Lafferty et al. (2001 )互枑釭仄凶手及匹﹜�极匹郔羥卅正弘葆仃
毛俴丹凶戶卞蕉尹日木凶忒楊匹丐月﹝
? ? ?卞�仄化﹜復薹腔僑饜楊匹�杅蚧僅郔湮趙毛俴尹壬謎中
互﹜s及午曰丹月瞎心磁歹六互嗣杅丐月及匹﹜Forward-Backward
失伙打伉朮丞卅升毛妏勻化�薹腔卞�呾允月﹝
? McCallum and Li (2003)反CoNLL-2003 dataset卞�仄化﹜荎惤
匹84.04%﹜玉奶汁惤匹68.11%毛�嶕仄化中月﹝
?? ? ? =
1
? ?
exp
?=1
?
?=1
?
? ? ?? ???1, ??, ?, ?
?0 =
? ﹋?
exp
?=1
?
?=1
?
? ? ?? ???1, ??, ?, ?

嘐衄桶政喲堤匹蚚中日木月杻釾講
11
? �化及諒�丐曰悝�匹裕匹丐勻凶及反杻釾講巨件斥瓦失伉件
弘匹丐勻凶﹝
? �g惤伊矛伙及杻釾講午棗𤩸毛蚚中凶杻釾講及媼意互丐月
? Boolean 杻釾講
卅氏日井及伙奈伙卞價勿中化淩��毛龰腕
? Numeric 杻釾講
恅趼及墿今支螿僅脹毛龰腕
? Nominal 杻釾講
弁仿旦煦�毛仄化龰腕﹜恅趼公及手及毛㜳丹�磁手
?? ?|? =
1
?托
exp
?=1
?
?? ?? ?, ?
?托 =
?,?
exp
?=1
?
?? ?? ?, ?
?? ? ? =
1
? ?
exp
?=1
?
?=1
?
? ? ?? ???1, ??, ?, ?
?0 =
? ﹋?
exp
?=1
?
?=1
?
? ? ?? ???1, ??, ?, ?

�g惤伊矛伙及杻釾講
12
? 湮恅趼井苤恅趼井
McDonald, DAIKIN, SVM, CNN
? 曆掂萸毛漪氏匹中月井升丹井
Prof. Sakata, O＊Reilly,
? 杅趼毛漪氏匹中月井
2018, 10kg, 2000＊s, 35th
? 恅趼及意�
Venezia, 5000欳�
? 諉螹棗支諉帣棗
-ist, -pur,

�g惤伊矛伙及杻釾講
13
? ⅲ啅
跪�g惤互靡啅卅及井倛⺍啅卅及井
? 憝杅
n-gram
苤恅趼趙﹜湮恅趼趙
劐𡥼 (ex. 湮恅趼毛A, 苤恅趼毛B, 杅趼毛C)
�g惤墿﹜白伊奈朮墿

棗𤩸毛蚚中凶杻釾講
14
? 丐日井元戶嘐衄桶政卞卅曰支允中�g惤及伉旦玄毛妏蚚允月﹜
? �砓�g惤互棗𤩸卞腎嶕今木化中月�g惤卞珨祡允月斛猁互丐月凶戶眕狟
及方丹卅�I燴毛囥允午謎中午今木化中月﹝
恚杅倛支綎�倛反緙珨允月
researcher vs researchers,
杅edit-distance及祥珨祡反偝允
WHO vs WTO, SWAROVSKI vs SWAROFSKI
逃秞互侔化中月手及反肮元午允月(Soundex失伙打伉朮丞毛妏蚚)
Lewinskey (soundex=1520) vs Lewinsky(soundex=1520)

統蕉�恅
1. Shen et al. (2018) 及☆Deep Active Learning For Named Entity★ @ ICLR2018
15

旮𦵴悝�及腎�
16
? 少勻切扎仃杻釾講巨件斥瓦失伉件弘互戶氏升仁今中﹝
諉帣棗支諉螹棗﹜ⅲ啅卅升反晟惤卞方勻化�卅月及匹﹜
晟惤筵剿腔卅乒犯伙互釬木卅中
棗𤩸毛厥切中凶杻釾講手晟惤卞方勻化�卅月棗𤩸毛妏丹
斛猁互丐月
? Collobert et al. (2011)互CNN卞方月嘐衄桶政喲堤毛場戶化枑偶﹝
? 郔輪反Bi-LSTM午CRF毛瞎心磁歹六凶忒楊互翋霜﹝
? Huang et al. (2015)及忒楊午Lample et al. (2016)及忒楊毛畿賡

Bidirectional LSTM-CRF Models for Sequence Tagging
17
? LSTM午CRF及瞎心歹六卞方勻化嘐衄桶政喲堤正旦弁毛�心凶
郔場及旃噶﹝
? Bi-LSTM午CRF毛瞎心磁歹六月仇午匹POS, chunking, 嘐衄桶政
喲堤正旦弁匹SOTA毛絻傖仄凶﹝
?�g惤伊矛伙及embedding午杻釾�I巨件斥瓦失伉件弘卞方勻化腕
日木月杻釾講及�I源毛瞎心磁歹六化軑䛐毛俴卅勻化中月﹝
whether has non initial capital letters
whether has punctuation
letter prefixes and suffixes (with window size of 2 to 5)＃
? 磐擁杻釾講巨件斥瓦失伉件弘毛仄化中月及匹丐曰互凶心シ中

Neural Architectures for Named Entity Recognition
18
? �g惤矛奈旦及Bi-LSTM及堤薯午CRF毛瞎心磁歹六月﹝
? �g惤矛奈旦及Bi-LSTM及⻌薯反☆恅趼伊矛伙及Bi-LSTM井日腕
日木月�g惤及煦汃桶政★午☆悝�𦤦心及�g惤及煦汃桶政★毛磐
磁今六凶手及毛妏蚚允月﹝
?荎惤匹反幻廿SOTA, 荎惤眕俋及玉奶汁惤﹜旦矢奶件惤﹜左仿件
母惤匹反SOTA毛�嶕仄凶﹝
? 荎惤匹反恅趼伊矛伙及embedding及�彆反情井勻凶互﹜坻
及3晟惤匹反湮五仁儕僅互砃奻仄凶﹝
? 杻釾講巨件斥瓦失伉件弘剠仄卅及匹丐曰互凶心旮中

矛旦玄卅失奈平氾弁民乓奈反ˋ
19
? Lample et al. 及掀廌午Peirsman 及皮伕弘☆Named Entity
Recognition and the Road to Deep Learning★及掀廌﹝
? Bi-LSTM反妏勻凶源互方今公丹﹝
? 悝�𦤦心及煦汃桶政手井卅曰�仁﹝
? 恅趼伊矛伙及embedding午CRF反公仇引匹湮五卅�彆毛手
凶日今卅中ˋ
http://nlp.town/blog/ner-and-the-road-to-deep-learning/

郔輪及�砃
20
? Shen et al. (2018) 及☆Deep Active Learning For Named
Entity★ @ ICLR2018 互�仄中﹝
CNN毛LSTM支GRU卞劐尹凶曰﹝
杻釾講巨件斥瓦失伉件弘毛恅趼矛奈旦DNN卞离
𡥼仄凶曰﹝
郔輪霜俴曰及Dilated CNN妏勻凶曰﹝
? 媼勾及�萸
分中分中CRF妏勻化卅中ˋ
公氏卅卞湮講卞犯奈正丐月及ˋ
https://arxiv.org/pdf/1707.05928.pdf

Deep Active Learning For Named Entity
21
? CRF毛LSTM卞离𡥼仄化��媆嶲毛傻窺
? Active Learning 毛羥蚚允月仇午匹犯奈正杅
毛廣1/4卞仄卅互日手﹜幻廿SOTA毛絻傖﹝
[覜砑]
媆炵蹈井日及杻釾講喲堤反手反支LSTM及�
仫杻偝匹反卅仁﹜堤薯互棒及堤薯卞荌�毛迵
尹月�磁卞及心妏尹壬謎今公丹﹝
CRF毛俇�卞分中凶中允月凶戶卞反堤薯手
BiLSTM卞允月屯五匹反ˋ

Active Learning
22
[覂砑]
失用氾奈扑亦件反醱給分仄戊旦玄手井井月卅及匹�薹趙互
А戶日木月﹝
嘐衄桶政脹及及失用氾奈扑亦件反ⅸ眢卅瓦亙奈
旦1勾匹手1媆嶲圉眕奻井井月﹝ (Settles+ 2008)
[�隅]
�悝�犯奈正及笢井日羥ピ卞扔件皿伙毛腢氏匹悝�褫
夔卅媆﹜悝�辻及俶夔反砃奻允月﹝
[價掛源�]
失用氾奈扑亦件及囀犯奈正井日棒卞失用氾奈扑亦件毛允月
屯五犯奈正毛腢太堤仄化﹜陔凶卅仿矛伙毛猁А允月﹝ http://burrsettles.com/pub/settles.activelearning.pdf

Deep Active Learning
23
? 井勾化及﹜Active Learning反屾講及犯奈正
本永玄匹悝�互公仇公仇丹引仁中仁仇午互ゴ枑午
今木化中凶﹝
? Wang et al. (2016)互賒砉煦�毛CNN匹賤仁
正旦弁卞云中化場戶化Active Learning毛蚚中凶﹝
悝�辻及復陓僅互腴中手及毛�珂腔
卞腢少 + 復陓僅及詢中手及反壺俋
? Zhang et al. (2017)反恅𤩸煦�毛CNN匹賤仁
正旦弁卞憝仄化Active Learning毛蚚中凶﹝
鎚戶煋心諾嶲卞湮五卅荌�毛迵尹月
扔件皿伙毛�珂腔卞腢少﹝
? Gal et al. (2017)反旮𦵴悝�蚚卞矛奶斥失件
矛奈旦及扔件皿伉件弘忒楊毛枑偶

Deep Active Learning For Named Entity
24
? Shen et al. (2018)反炵蹈正弘葆仃�觳卞�仄化
Active Learning毛蚚中凶﹝
Least Confidence
Maximum Normalized Log-Probability
Bayesian Active Learning by Disagreement
SUBMODular optimization problem

THANK YOU FOR LISTENING
ANY DISCUSSION?

端端舝

嘐衄桶珋喲堤卞勾中化

Recommended

More Related Content

What's hot (20)

Similar to 嘐衄桶珋喲堤卞勾中化 (8)

Recently uploaded (11)

嘐衄桶珋喲堤卞勾中化

Editor's Notes