狠狠撸
Submit Search
読解支援フ?レセ?ン 4 28
?
1 like
?
542 views
K
kentshioda
Follow
読解支援 4/28
Read less
Read more
1 of 22
Download now
Download to read offline
More Related Content
読解支援フ?レセ?ン 4 28
1.
? 語彙的対応関係の一般化に基づく ? 言い換え知識の拡張 ?
? 藤田篤?Pierre ?Isabelle ? 情報通信研究機構?National ?Research ?Council ?Canada ? ? 言語処理学会第21回年次大会発表論文集 ? D1-?‐5, ?pp.321-?‐324, ?2015 紹介者:塩田健人 1
2.
概要 ?言い換えを頑健かつ精度よく自動生成するためには ? 多くの言い換え知識が不可欠である ?
? ?現在の言い換え技術では精度のよい言い換えをするには ? 高品質な言語資源が必要 ? ?例:Catvar, ?Word ?Net ? ? ?しかし、構築?保守にかかる人的コストは大きく、 ? 高価な資源である ? ? そこで、 ? 『言語依存の高価な言語資源を使わずに ? 精度のよい言い換え手法を提案する』 2
3.
先行研究 1.単言語コーパスに基づく方法 ?? 分布仮説に基づいて使用される文脈が類似している (文脈類似度が高い)表現の対を言い換え表現対とし て獲得する。 ?? 反義関係や上位ー下位関係などの同義以外の関係を持 つ表現の対も高い文脈類似度を持つため、精度は低い。 3
4.
先行研究 2.単言語パラレル/コンパラブルコーパスに基づく方法 ?? .単言語パラレル/コンパラブルコーパスの対応する文 の対における同義の部分を使い、精度よく言い換え表 現対を獲得できる。 ?? 単言語コーパスほどのカバレージを得ることは出来な い。 4
5.
先行研究 3.異言語パラレルコーパス(対訳コーパス)に基づく方法 ?? 異なる言語において共通の訳を持つ表現を言い換えと して獲得できる。 ?? しかし、たとえ大きな対訳コーパスであっても単言語 コーパスに比べると極めて小さく、言い換えカバレー ジも低い 5
6.
提案手法 ? ? 言い換え知識中の個々の言い換え表現対における
? 語彙的な対応関係に着目し、言い換えパターンの獲得 ? ? 獲得した言い換えパターンを用いて、 単言語コーパスから新たな言い換え表現対を収集する ? 6
7.
提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 7
8.
提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 8
9.
提案手法 ? Amendment ?of
?regulation ? ?amending ?regulation ? ? X ?: ?ment ?of ?Y ?: ?? ? X : ing Y : ? ? investment ?of ?resources ? ?investing ?resources ? recruitment ?of ?engineers ? ?recruiting ?engineers ? ?? 上記のような元々の対とは表層的に全く異なる語で構成 される対も得られる。 9
10.
着目する語群 ?? 派生語 ? o?
表記や意味の一部を共有する異なる語の群 ? {“develop”, ?“developer”, ?“development”, ?…} ? ?? 活用形/屈折形 ? o? 活用や屈折に由来する同じ語の異なる出現形 ? {“amend”, ?“amends”, ?“amending”, ?…} ? ?? 異表記 ? o? 同じ語の同じ活用形/屈折形の異なる表記 ? {“color”, ?“colour”}, ?{“authorize”, ?“authorise”, ?…} ? 10
11.
提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 11
12.
提案手法 ?? 高品質なSseedを前提として ? ??
言い換え表現対の各辺にあり、同じ語幹をもつ語の対は、 特定の(意味的な)関係を持つ 語1????? 語2 接辞1 接辞2 語幹 aimed ? aimed ? achieving ? achieving ? aims ? achieve ? aims ? achieve ? X ?: ?ed ? X ?: ?imed ? X ?: ?chieving ? X ?: ?ing X ?: ?s ? X ?: ?chieve ? X ?: ?ims ? X ?: ?e aim ? a ? a ? achiev ? 12
13.
提案手法 言い換えパターンの獲得 言い換え表現対Sseedから言い換えパターンの獲得 接辞パターンの候補を獲得 抽出された接辞パターンの候補をフィルタリングする 13
14.
提案手法 ?? 抽出した接辞パターンの品質保持のため ? 長さk以上の語幹n種類以上に対して
? 観察された接辞パターンのみを残す。 接辞1 接辞2 語幹の種類数 結果 長さ ?≥ ?5 ? 長さ ?< ?5 ? X ?: ?chieve ? X ?: ?chieving ? X ?: ?ed ? X ?: ?ing X ?: ?imed ? X ?: ?ims ? X ?: ?s ? X ?: ?e 0 ? 0 ? 69 ? 330 ? 1 ? 1 ? 22 ? 70 捨てる ? 捨てる ? 残す ? 残す ? 14
15.
新規言い換え表現の獲得 15
16.
コーパス ? ?? Europarl
? o? 英仏対200万文(英語5570万語、仏語6190万語) ? o? 使用したコーパス ? ?? 英語側とNews ?Crawl ?5,200万文、12.0億語 ? ?? NTCIR ? o? 日英対320万文(英語1.07億語、日本語1.16億形態素) ? o? 使用したコーパス ? ?? 英語側とNTCIRの単言語文書3,990万文、13.6億語 ? 16
17.
問題点 People ?of ?Europe
? ?European ?population ? ? People ?of ?X ?: ?? ?? ?X ?: ?an ?population ? ? 単言語コーパスで同じ関係を持つ ? (“Haiti”, ?”Haitian”), ?(“suburb”, ?“suburban”)だけでなく ? (“uncle”, ?“unclean”)など語の意味ではなく、語の形だけで 抽出されてしまう ? ? 文脈類似度を単言語コーパスから計算して、置き換え出来 ないような対を除外する 17
18.
拡張結果 SLVとSseed中の ? 言い換え表現対の数 ? SLVとSseed中の
? 言い換え表現対の数の比 ? 18
19.
評価 ?? 評価設定 ? o?
自動生成した言い換え文が文法的か ? o? 言い換え文が原文と同じ意味を持つか ? ?? 評価方法 ? o? 同じ原文から得られた複数の言い換え文を横並びに し、文法性、意味の等価性を人間が評価する ? 19
20.
評価結果 評価基準 粗い分類 細かい分類 文法性
0.64 ?– ?0.79 0.51 ?– ?0.56 意味の等価性 0.48 ?– ?0.53 0.27 ?– ?0.35 評価者各対のCohenのk 文数 文法性 意味の等価性 両方 SSeed 66 0.85 0.91 0.76 SLV 534 0.76 0.78 0.59 合計 600 0.75 0.79 0.61 自動生成した言い換え文の精度 言語依存の高価な言語資源をほとんど使用することなく、 構文解析器などを用いた従来手法と同等以上の精度を達成 ? 20
21.
考察 文法カテゴリの変化 ? ?? The
?safety ?issue ?was ?considered ?su?ciently ?serious ?for ?all ? a?ected ?parties ?to ?be ?informed ? ?? The ?safety ?issue ?was ?su?cient ?consideration ?serious ?for ?all ? a?ected ?parties ?to ?be ?informed ? 数や冠詞の違い ? ?? There ?are ?tons ?of ?potential ?buyers ?of ?military ?weapons ? ?? There ?are ?a ?potential ?buyer ?of ?military ?weapons 21
22.
まとめ 従来手法で自動的に獲得された言い換え知識を ? 言い換え表現対に見られる語彙的対応関係に着目し、 ? 単言語コーパスで拡張する手法の提案
? ? この手法は高いカバレージ、許容可能程度の精度 ? を達成できた ? ? 今後は、英語以外の言語、他の手法で獲得した言い換えに もこの手法を試していきたい。 22
Download