狠狠撸

狠狠撸Share a Scribd company logo
Presentaion ?: ?塩?田健?人1
u?? どんな問題を解いたか
u?? ?言い換え対象の語が?文中で重要な語であるかの選定
u?? その語が無いと?文の意味が変わってしまう
u?? ?言い換え対象語の同義語を?見見つけ、語義曖昧性解消
u?? 複合語を構成する語かどうか
u?? →複合語を?見見分ける
複合語:blood ?pressure, ?letter ?writing
u?? どうやって解いたか
u?? ?人間と機械に同じ課題を与え、結果を?比べる
u?? システムを9つのチームに作らせて出来を?比べた
2
u?? English ?Internet ?Corpus
u?? 2010?文をランダムに選び、201のtarget ?word
→?言い換えるtarget ?wordは初めに決められている
u?? 300?文を学習データ(30個の?言い換え語)? 
1710?文をテスト?用データとして利利?用
3
u?? 5?人の英国?人
u?? 3つまで?言い換え候補の語を挙げることが出来、複数の
同じ意味の語があった場合より?一般的な語で置き換える
u?? 1語で置き換えできなかったら句句で置き換え可能
u?? Target ?wordが?氏名の?一部なら”NAME”とし、? ? ? ? 
適切切な置き換え候補がなかった場合は”NIL”とする
u?? アノテーターは?言い換えをする際に複合語を?用いること
がある
4
u?? 10つのシステムがあり、そのうち8つのシステムがweb
クエリやwebデータから語義曖昧性解消の学習データを
参照した
u?? Webクエリ:HIT, ?MELB, ?UNT
u?? Webデータ:IRST2, ?KU, ?SWAG1, ?SWAG2, ?USYD, ?
UNT
u?? 9のシステムはタグ付けなしデータを?用いたが、1つは
頻出語ではない同義語をフィルタリングするためにタグ
付けありデータを?用いた
u?? UNTは機械翻訳エンジンを使?用している
5
u?? Ⅰ)best
u?? システムが?言い換え可能と判断した語を出来るだけ
たくさん出?力力したもの
u?? 予測の第?一候補に?用いられる
u?? Ⅱ)oot
u?? 10語だけ?言い換え可能な語を出?力力したもの
u?? システムがアノテーターの出した答えと同じ物にな
る確率率率があがる
u?? Ⅲ)mw
u?? target ?wordが複合語の?一部であり、また?文に不不可?欠
な語であるかを判定しなければならない
6
u?? WordNet ?2.1を?用いてbaselinesを作成する
u?? Bestとoot
u?? 同義語が初めのsynsetにある場合
u?? 同義語がその語の上位語からきている場合
u?? 同義語が全てのsynsetにある場合
u?? 同義語が上位語からきている、もしくは近いクラスの
synsetにある場合
→bestは条件に当てはまる語全て
→ootは条件に当てはまる上位10個の語
u?? mw
u?? 複合語がWordNetにあり、target ?wordが前後2単語以内
にある場合
7
8
9
10
u?? ほぼ全ての作成したシステムがbaselineを超えることが
出来た
u?? あらかじめ定義されたがデータを使わないので、偏りな
しにシステムの出?力力を?比較することができた
11
u?? アノテータの集合:H
u?? 2つ以上の回答を持つ単語の集合:T
u?? アノテータhの単語iについての回答の集合:h_?i
u?? 最?高頻度度の回答:mode()
u?? mode()の集合:TM
u?? Tの部分集合:A
u?? TMの部分集合:AM
12
13
14
15

More Related Content

読解支援6 5