8. 研究概要
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 8
l? 従来法1: n-gram頻度に基づく?選択 [Bloodgood et al., 2010]
A housewrap made from any one of the preceding claims .
(?頻度)
l? 従来法2: n-gram頻度に基づくフレーズ選択 [Bloodgood et al., 2010]
A housewrap made from any one of the preceding claims .
(?頻度)
l? 提案法: 構?情報に基づくフレーズ選択 [三浦 他, 2015]
any one of the preceding claims
DT CD IN DT NNS JJ
NP
PP
NP
NP ???
???
???
l? より少ない追加単語数で
カバレッジ向上と
?品質な対訳取得を期待
(?頻度)
13. 16/03/09 Akiva Miura AHC-Lab, IS, NAIST 13
Phrase to be translated:
3: sure about the translation
Translation input form:
?査型電?顕微鏡 (SEM)
Con?dence level:
2: not so sure about the translation
1: not sure at all
The morphologies using scanning electron
microscopy ( SEM ) were studied .
??翻訳データの収集
l? Web UIを作成し、プロの翻訳者に翻訳作業を依頼
l? 翻訳に対する確信度も併せて評価
27. n-gram頻度に基づく?選択?法
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 27
ü? 少ない?数で原?語データの全n-gramフレーズをカバー可能
? 翻訳済みフレーズも多く再選択されるために無駄が多い
l? 最?頻度の未カバーn-gramフレーズを含む?を選択
??????????????????[Bloodgood et al., 2010]
350,000
(times)
200,000 100,000 (times)
A housewrap made from any one of the preceding claims .
any one of the preceding claims
28. n-gram頻度に基づくフレーズ選択?法
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 28
ü? ?選択?法よりも少ない単語数でn-gramカバレッジを向上
? 選択されるフレーズどうしの重複多数
? フレーズの断?化が発?し、??翻訳が困難
? 単語数 n > 4 のフレーズ対応を学習できない
l? 最?頻度の未カバーn-gramフレーズそのものを選択
??????????????????[Bloodgood et al., 2010]
sorting
350,000 200,000 100,000 (times)
any one of the preceding claims
?? any one of the 350,000
?? one of the preceding 200,000
?? of the preceding claims 100,000
翻訳が困難
提案手法で解決
29. 構??に基づくフレーズ選択
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 29
l?構?解析結果から部分?をなすフレーズを頻度順に追加
????????????????????[三浦 他, 2015]
are proposed and discussed
VBZ VBN CC VBN
VP
VP
VP
VP
two methods are proposed
CD NNS VBP
VP
NP
S
VBN
VP
ü? 構?解析結果を?いることで、断?化の問題を解消
ü? 包含関係にあるフレーズを?定条件で統合して重複を削除
?? ??翻訳時の品質にも好影響?(本研究で調査)
カウントする カウントしない
?
34. フレーズの極?性に基づくデータ選択
16/03/09 Akiva Miura AHC-Lab, IS, NAIST 34
l?極?性を持つ未カバーのフレーズを抽出し、頻度順に選択
?? 極大フレーズの選択:
p2とp3が極大性を持つ(p1 ? p2)
any one of the preceding claims
any one of the preceding claims
?? 半極大フレーズの選択:
p3が極大性を持つ(p1 ? p2 ? p3)
ü? フレーズの重複部分を効果的に統合
△ すべての重複を統合できるわけではない
? 統語情報を?いていないので、断?化の問題が残る
p1 = “one of the preceding”, occ(p1) = 200,000
p2 = “one of the preceding claims”, occ(p2) = 200,000
p3 = “any one of the preceding claims”, occ(p3) = 190,000