狠狠撸

狠狠撸Share a Scribd company logo
文脈の多様性に基づく 
名詞換言の提案 
長岡技術科学大学 
梶原智之 山本和英
背景と目的 
国語辞典を用いた換言 [梶原 13] 
【語彙平易化】見出し語 → 語釈文中の語 
課題1:語釈文の一部では見出し語と非等価 
課題2:数語の語釈文では換言候補が少ない 
→ 既存の換言知識に頼らず 
  大規模コーパスを用いて換言を生成 2
提案手法 
コーパスを用いた名詞換言 
 分布仮説[Harris 54] 
似た意味の語は似た文脈で用いられる 
1. 入力文と同じ文脈で用いられる名詞を抽出 
  → 自然な文を出力するための制約 
2. 抽出した各換言候補語と文脈の類似度を計算 
   → 意味を保持するための制約 3
提案手法による名詞換言の流れ 
4
1. 換言候補の収集 
「空港へのアクセスを調べる」 
「空港への○○」  「○○を調べる」 
コーパスを検索して○○を収集 
前文脈と後文脈に共通する○○に 
換言することで自然な文を出力できる 5
2. 換言先の選択(類似度計算) 
   換言対象の語と換言候補の語が多くの種類 
   の文脈を共有するほど換言可能性は高い 
   換言候補の語が多くの種類の 
   文脈を持つほど換言可能性は低い 
1 
2 
sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 
1 2 
 nt:換言対象の名詞、 nc:換言候補の名詞 
 com(nt, nc):ntとncが共通して用いられる文脈の種類数 
 N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
提案手法の特徴 
? 入力文脈に応じた換言が可能 
? 単語の出現頻度を使わない 
? 換言可能な語とは多くの種類の文脈を共有する 
? 高頻度の単語に影響を受けない 
? 頻度の偏りにも影響を受けない 
→ 文脉の多様性に基づく名词换言の提案 
7
関連研究 
? [Marton et al. 09] 
? [Bhagat and Ravichandran 08] 
1. コーパス中で換言対象語の 
文脈の語から特徴ベクトルを生成する 
2. 特徴ベクトル同士のコサイン類似度を 
計算し類似度最大の換言候補語へ換言する 
8
関連研究 
? [Marton et al. 09] 
? 未知語の換言により機械翻訳の精度を向上 
? 文脈の語との共起頻度で特徴ベクトルを作成 
? [Bhagat and Ravichandran 08] 
? 大規模コーパスから換言対を獲得 
? 文脈の語とのPMIで特徴ベクトルを作成 
9
関連研究 
? [Marton et al. 09]:共起頻度 
? 重要な文脈:多く共起する文脈 
→ 単体での出現頻度が高い単語の影響が強い 
? [Bhagat and Ravichandran 08]:PMI 
? 重要な文脈:偏って共起する文脈 
→ 単体での出現頻度が低い単語の影響が強い 
10
実験 
? Web日本語Nグラム:1,365,705件を抽出 
? 名詞 + … + 名詞 + … + 動詞原形 
? このうち頻出の200件について実験 
? 文頭ではない名詞が換言対象の名詞 
? 京都大学格フレーム:文脈の類似度計算 
? 述語:34,059語 
? 名詞:824,639語 
? 【荷物を積む】と【経験を積む】を区別できる 11
評価 
12 
類似度1位 
の名詞が換 
言可能 
20% 
類似度2位 
から10位ま 
での名詞が 
換言可能 
21% 
類似度10位 
までに換言 
可能な名詞 
がない 
31% 
同じ文脈で 
用いられる 
名詞がない 
28% 
200文の換言結果
換言できた例 
入力文 出力文 
オーナーの【承認】が必要になる オーナーの【許可】が必要になる 
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 
良心的な【料金】を提供する 良心的な【価格】を提供する 
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 
教育の【拡充】などがあげられる 教育の【強化】などがあげられる 
13
同じ文脈の名詞がない例 
14 
? 「畜産加工等の【案件】がある」 
? 文脈に依存する共起の種類が少ない語 
? 前文脈に依存する例が多い 
? 「更新日順表示に【並び】かえる」 
? 複合語の一部は換言できない
適切な換言ができない例 
入力文 換言候補 
① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 
水着、普段着、カジュアル 
② 以上の【評価】を受けている 活動、教育、事業、 
サービス、調査、管理 
①類義語を換言候補に集めることはできるが、 
 上位下位関係の中で適切な階層の語を選択できない 
②句単位の換言が必要 
 【評価を受ける】→【認められる】 
15
まとめ 
? 本研究の目的 
? 文脈の多様性に基づく名詞の換言手法の提案 
? 提案手法の特徴 
? 入力文脈に応じた換言 
? 頻度を使用しない文脈の種類数に基づく換言 
? 今後の課題 
? 上位下位関係の中での語の選択 
? 句単位の換言 16
予告 
JSAI2014@愛媛 
3I4:自然言語処理におけるコーパス?辞書生成 
?文脈の多様性に基づく名詞換言の評価? 
 入力文脈を考慮した制約の有効性 
17 
1  頻度を使わない手法の有効性 
2

More Related Content

文脉の多様性に基づく名词换言の提案

  • 2. 背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない → 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成 2
  • 3. 提案手法 コーパスを用いた名詞換言  分布仮説[Harris 54] 似た意味の語は似た文脈で用いられる 1. 入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約 2. 抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約 3
  • 5. 1. 換言候補の収集 「空港へのアクセスを調べる」 「空港への○○」  「○○を調べる」 コーパスを検索して○○を収集 前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5
  • 6. 2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い    換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い 1 2 sim(nt, nc) = com(nt, nc) * log(N/DF(nc)) 1 2  nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
  • 7. 提案手法の特徴 ? 入力文脈に応じた換言が可能 ? 単語の出現頻度を使わない ? 換言可能な語とは多くの種類の文脈を共有する ? 高頻度の単語に影響を受けない ? 頻度の偏りにも影響を受けない → 文脉の多様性に基づく名词换言の提案 7
  • 8. 関連研究 ? [Marton et al. 09] ? [Bhagat and Ravichandran 08] 1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する 2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する 8
  • 9. 関連研究 ? [Marton et al. 09] ? 未知語の換言により機械翻訳の精度を向上 ? 文脈の語との共起頻度で特徴ベクトルを作成 ? [Bhagat and Ravichandran 08] ? 大規模コーパスから換言対を獲得 ? 文脈の語とのPMIで特徴ベクトルを作成 9
  • 10. 関連研究 ? [Marton et al. 09]:共起頻度 ? 重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い ? [Bhagat and Ravichandran 08]:PMI ? 重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い 10
  • 11. 実験 ? Web日本語Nグラム:1,365,705件を抽出 ? 名詞 + … + 名詞 + … + 動詞原形 ? このうち頻出の200件について実験 ? 文頭ではない名詞が換言対象の名詞 ? 京都大学格フレーム:文脈の類似度計算 ? 述語:34,059語 ? 名詞:824,639語 ? 【荷物を積む】と【経験を積む】を区別できる 11
  • 12. 評価 12 類似度1位 の名詞が換 言可能 20% 類似度2位 から10位ま での名詞が 換言可能 21% 類似度10位 までに換言 可能な名詞 がない 31% 同じ文脈で 用いられる 名詞がない 28% 200文の換言結果
  • 13. 換言できた例 入力文 出力文 オーナーの【承認】が必要になる オーナーの【許可】が必要になる 重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる 良心的な【料金】を提供する 良心的な【価格】を提供する 国内農業の【発展】を阻害する 国内農業の【成長】を阻害する 教育の【拡充】などがあげられる 教育の【強化】などがあげられる 13
  • 14. 同じ文脈の名詞がない例 14 ? 「畜産加工等の【案件】がある」 ? 文脈に依存する共起の種類が少ない語 ? 前文脈に依存する例が多い ? 「更新日順表示に【並び】かえる」 ? 複合語の一部は換言できない
  • 15. 適切な換言ができない例 入力文 換言候補 ① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル ② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない ②句単位の換言が必要  【評価を受ける】→【認められる】 15
  • 16. まとめ ? 本研究の目的 ? 文脈の多様性に基づく名詞の換言手法の提案 ? 提案手法の特徴 ? 入力文脈に応じた換言 ? 頻度を使用しない文脈の種類数に基づく換言 ? 今後の課題 ? 上位下位関係の中での語の選択 ? 句単位の換言 16
  • 17. 予告 JSAI2014@愛媛 3I4:自然言語処理におけるコーパス?辞書生成 ?文脈の多様性に基づく名詞換言の評価?  入力文脈を考慮した制約の有効性 17 1  頻度を使わない手法の有効性 2