狠狠撸

狠狠撸Share a Scribd company logo
ピボット翻訳あれこれ
奈奈良良先端科学技術?大学院?大学
知能コミュニケーション研究室? 三浦 ?明波
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 1	
第11回 ?関?西MT勉強会 ?合宿
自己紹介	
 ?
l?? 氏名:	
 ? 	
 ?三浦 明波 (ミウラ アキバ)	
 ?
	
 ? 	
 ?	
 ?
	
 ?
l?? 経歴:	
 ?
	
 ?神戸高専(3年修了中退)	
 ?
	
 ?→	
 ?テクニオン	
 ?–	
 ?イスラエル工大	
 ?(B.Sc)	
 ?
	
 ?→	
 ?NAIST	
 ?(M1)	
 ?
l?? 関心事:	
 ?
?? 多言語翻訳(建前)	
 ?
?? 日本語 ? ヘブライ語 翻訳(本命)	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 2	
???????? ???????
	
	
??????????????????? ??????????????????
Overview	
 ?
0. ??自?己紹介
1.? 研究背景
2.? 背景技術 ?-‐?? ?機械翻訳?方式
3.? 背景技術 ?-‐?? ?ピボット翻訳
4.? 研究概要
5.? 実験内容、結果と考察
6.? まとめ、今後の課題
7.? Appendix
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 3
1. ?研究背景
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 4
統計的機械翻訳	
 ?
l?? 統計的機械翻訳(StaHsHcal	
 ?Machine	
 ?TranslaHon	
 ?;	
 ?SMT)	
 ?:	
 ?
	
 ? 	
 ? 	
 ? 	
 ? 	
 ? 	
 ?[Brown	
 ?et	
 ?al.,	
 ?1993]	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 5	
ü?? ?人?手によるルール記述が不不要
ü?? 対訳コーパスの?文量量が増えるほど訳出の精度度が向上
対訳コーパス
単?言語
コーパス
翻訳モデル
?言語モデル
デコーダ
(翻訳機)
学習データ
?入?力力?文
出?力力?文
翻訳システム
多言語翻訳における課題	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 6	
言語対(代表例)	
対訳	
 ?
コーパス	
英語 ? フランス語	
 ? ?	
英語 ? 日本語	
 ?	
英語 ? カタルーニャ語	
 ?
(?)	
 ? ?	
日本語 ? フランス語	
 ?
(?)	
 ? ?	
l?? 特定の?言語対において、
?大規模な対訳コーパスを短期間で取得することは困難
ピボット翻訳	
 ?
翻訳したいが対訳コーパスが無い…
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 7	
フランス語 ?日本語?
ピボット?言語(中間?言語)を導?入!
フランス語 ?日本語英語
ピボット?言語を介して翻訳が可能に!!
フランス語 ?日本語英語
?
多言語翻訳における課題	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 8	
言語対(代表例)	
対訳	
 ?
コーパス	
英語 ? フランス語	
 ? ?	
英語 ? 日本語	
 ?	
英語 ? カタルーニャ語	
 ?
(via	
 ?スペイン語)	
 ? ?	
日本語 ? フランス語	
 ?
(via	
 ?英語)	
 ? ?	
l?? ピボット翻訳によって学習データの取得困難性を緩和
多言語翻訳における課題	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 9	
言語対(代表例)	
対訳	
 ?
コーパス	
言語構造	
 ?
の類似度	
手法 (代表例)	
英語 ? フランス語	
 ? ?	
 ?	
 ?	
英語 ? 日本語	
 ?	
 ?	
 ?	
英語 ? カタルーニャ語	
 ?
(via	
 ?スペイン語)	
 ? ?	
 ?	
 ?	
日本語 ? フランス語	
 ?
(via	
 ?英語?)	
 ? ?	
 ?	
 ?	
l?? 機械翻訳には単語の並べ替え問題がつきまとう
2. ?背景技術 ?– ?機械翻訳?方式
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 10
フレーズベース翻訳	
 ?
l?? フレーズベース翻訳(Phrase-?‐Based	
 ?Machine	
 ?TranslaHon	
 ?;	
 ?PBMT)	
 ?:	
 ?
	
 ? 	
 ? 	
 ? 	
 ? 	
 ? 	
 ?[Koehn	
 ?et	
 ?al.,	
 ?2003]	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 11	
ü??  ?シンプル、実装?運?用が容易易、?高速
?? ?言語間の?高度度な並び替えは困難
natuerlich	
 hat	
 john	
 spass	
 ?am	
 spiel	
of	
 ?course	
 john	
 has	
 fun	
 ?with	
 ?the	
 game	
ドイツ語:	
英語:
階層的フレーズベース翻訳	
 ?
l?? 階層的フレーズベース翻訳	
 ?
(Hierarchical	
 ?Phrase-?‐Based	
 ?Machine	
 ?TranslaHon	
 ?;	
 ?Hiero)	
 ?:	
 ?
	
 ? 	
 ? 	
 ? 	
 ? 	
 ? 	
 ?	
 ?	
 ?	
 ?[Chiang,	
 ?2007]	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 12	
	
 ?
	
 ?
ルール対応の例 (英日翻訳):	
 ?
	
 ? 	
 ?[X0]	
 ?of	
 ?[X1]	
 ?→	
 ?[X1]	
 ?の	
 ?[X0]	
 ?
ルールの適用例 :	
 ?
	
 ? 	
 ?	
 ?friends	
 ?of	
 ?Taro	
 ?→	
 ?太郎 の 友人	
 ?
	
 ? 	
 ?the	
 ?parents	
 ?of	
 ?Taro	
 ?and	
 ?Hanako	
 ?→ 太郎 と 花子 の 両親	
 ?
	
 ?
	
ü??  ??高度度な並び替えに対応可
?? モデルサイズの肥?大化、計算時間の増?大、フレーズ??長の制限
統語ベース翻訳	
 ?
l?? Tree-?‐to-?‐String翻訳 (T2S)	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 13	
ü??? 構?文情報を?高精度度に捉えて翻訳が可能
?? ? ? ?構?文解析器が必要、解析精度度に?大きく依存
X1:NP	
S	
VP	
X2:VBD	
 X3:NP	
X1 X3 X2	
(SVO → SOV)
多言語翻訳における課題	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 14	
言語対(代表例)	
対訳	
 ?
コーパス	
言語構造	
 ?
の類似度	
手法 (代表例)	
英語 ? フランス語	
 ? ?	
 ?	
 PBMT	
英語 ? 日本語	
 ?	
 ?	
Hiero	
 ?
T2S,	
 ?F2S	
英語 ? カタルーニャ語	
 ?
(via	
 ?スペイン語)	
 ? ?	
 ?	
 ?	
日本語 ? フランス語	
 ?
(via	
 ?英語)	
 ? ?	
 ?	
 ?	
l?? ?言語対によって翻訳?手法の向き不不向きがある
3. ?背景技術 ?– ?ピボット翻訳
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 15
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 16	
SMT	
 ?
fr	
 ?→	
 ?en	
SMT	
 ?
en	
 ?→	
 ?zh	
input.fr	
 translated.en	
 translated.zh	
train.fr-?‐en.fr	
 train.fr-?‐en.en	
 train.en-?‐zh.en	
 train.en-?‐zh.zh	
パイプライン処理によってピボット言語文を介して翻訳
[De Gispert et al.,2006]
ü??  ?実現が容易易、機械翻訳?方式に依らず組合せ可能
?? 翻訳誤りが伝播される、システム全体の最適化困難
逐次的ピボット翻訳	
 ?(Cascade)	
 ?
テーブル合成方式	
 ?(TriangulaHon)	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 17	
Phrase	
 ?
Table	
 ?
fr	
 ?→	
 ?en	
Phrase	
 ?
Table	
 ?
en	
 ?→	
 ?zh	
input.fr	
 translated.zh	
train.fr-?‐en.fr	
 train.fr-?‐en.en	
 train.en-?‐zh.en	
 train.en-?‐zh.zh	
SMT	
 ?
fr	
 ?→	
 ?zh	
2つの翻訳モデルを1つに合成 [Cohn et al., 2007]
ü?? 独?立立したモデルを?生成
?? 翻訳確率率率の推定?方法に精度度が依存
多言語翻訳における課題	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 18	
言語対(代表例)	
対訳	
 ?
コーパス	
言語構造	
 ?
の類似度	
手法 (代表例)	
英語 ? フランス語	
 ? ?	
 ?	
 PBMT	
英語 ? 日本語	
 ?	
 ?	
Hiero	
 ?
T2S,	
 ?F2S	
英語 ? カタルーニャ語	
 ?
(via	
 ?スペイン語)	
 ? ?	
 ?	
 PBMT	
 ?× 合成	
日本語 ? フランス語	
 ?
(via	
 ?英語?)	
 ? ?	
 ?	
Hiero	
 ?× 合成?	
 ?
T2S/F2S	
 ?×	
 ?合成?
4. ?研究概要
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 19
研究概要	
 ?
l??調査したいこと:
①? Triangulation(テーブル合成?手法)は、
Hieroにおいても有効に機能するかどうか
 ?(昨年年12?月のNL研で発表)
②? Triangulationの精度度向上は可能かどうか
③? 既存の?言語資源をどう有効に?用いるか
l?? ?用いたデータセット:
?? 国連?文書多?言語コーパスのうち、
仏英、英?西、英中の対訳コーパス10万?文ずつ
15/03/15	
 20	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST
5. ?実験内容、結果と考察
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 21
実験①	
 ?
Triangulationは、
Hieroにおいても有効に機能するかどうか
??? PBMTで有?用性が知られているテーブル合成?手法を、
Hieroにおいても適?用
??? Direct(ピボットを介さない直接翻訳モデル)や、	
 ?
Cascade(逐次的ピボット翻訳)と合わせて比較評価	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 22
従来手法:	
 ?MarginalizaHon	
 ?
テーブル合成時に翻訳確率推定方法で比較	
 ?
	
 ?
l?? 従来法1:	
 ?MarginalizaHon(確率周辺化)[UHyama	
 ?et	
 ?al.,	
 ?2007]	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
	
 ?
Φ	
 ?–	
 ?フレーズ翻訳確率	
 ?
pω	
 ?–	
 ?語彙重み	
 ?
	
 ?
※ 逆方向の翻訳確率も同様に推定	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 23	
φ(trg | src) = φ(trg | pvt)φ(pvt | src)
pvt∈T1∩T2
∑
pω (trg | src) = pω (trg | pvt)pω (pvt | src)
pvt∈T1∩T2
∑
ルール対応の推定例	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 24	
日英翻訳ルール:	
 ?
 [X1]	
 ?を出る	
 ?→	
 ?leave	
 ?[X1] (日英翻訳確率 =	
 ?0.6)	
 ?
 [X1]	
 ?を残す	
 ?→	
 ?leave	
 ?[X1] (日英翻訳確率 =	
 ?0.7)	
 ?
	
 ?
英中翻訳ルール:	
 ?
 leave	
 ?[X1]	
 ?→	
 ?離開	
 ?[X1] (英中翻訳確率 =	
 ?0.5)	
 ?
 leave	
 ?[X1]	
 ?→	
 ?留	
 ?[X1]   (英中翻訳確率 =	
 ?0.3)	
 ?
	
 ?
合成された日中翻訳ルールの例:	
 ?
 [X1]を出る →離開	
 ?[X1] (日中翻訳確率 = 0.6	
 ?×	
 ?0.5	
 ?=	
 ?0.3)	
 ?
 [X1]を出る →	
 ?留	
 ?[X1]  (日中翻訳確率 = 0.6	
 ?×	
 ?0.3	
 ?=	
 ?0.18)	
 ?
 [X1] を残す→離開	
 ?[X1] (日中翻訳確率 = 0.7	
 ?×	
 ?0.5	
 ?=	
 ?0.35)	
 ?
 [X1] を残す→	
 ?留 [X1]  (日中翻訳確率 =	
 ?0.7	
 ?×	
 ?0.3	
 ?=	
 ?0.21)	
 ?
実験結果①	
 ?–	
 ?Fr	
 ?→	
 ?Es	
 ?(via	
 ?En)	
 ?
15/03/15	
 25	
Method	
 BLUE	
PBMT	
 ? Hiero	
Direct	
 40.15	
 40.19	
Cascade	
 36.20	
 36.30	
TriangulaHon	
 ?
(MarginalizaHon)	
39.13	
 38.75	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
ü??  ?Direct ?> ?Triangulation ?> ?Cascade
実験結果①	
 ?–	
 ?Fr	
 ?→	
 ?Zh	
 ?(via	
 ?En)	
 ?
15/03/15	
 26	
Method	
 BLUE	
PBMT	
 ? Hiero	
Direct	
 14.31	
 16.33	
Cascade	
 14.	
 ?05	
 16.23	
TriangulaHon	
 ?
(MarginalizaHon)	
14.3	
 16.66	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
ü??  ?Direct ?> ?Triangulation ?> ?Cascade
実験②	
 ?
Triangulationの精度度を上げられるかどうか
??? 昨年発表された新しい翻訳確率の推定方法で追実験	
 ?
??? もう一つ自分の提案方を導入	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 27
従来手法2:	
 ?MarginalizaHon	
 ?
l?? 従来法2:	
 ?CountMin(最小共起回数)	
 ?	
 ?[Zhu	
 ?et	
 ?al,	
 ?2014]	
 ?
	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 28	
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
c – 共起回数
ルール対応の推定例	
 ?(CountMin)	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 29	
日英翻訳ルール:	
 ?
 [X1]	
 ?を出る	
 ?→	
 ?leave	
 ?[X1] (共起回数 =	
 ?60,	
 ?日英翻訳確率 =	
 ?0.6)	
 ?
 [X1]	
 ?を残す	
 ?→	
 ?leave	
 ?[X1] (共起回数 =	
 ?70,日英翻訳確率 =	
 ?0.7)	
 ?
	
 ?
英中翻訳ルール:	
 ?
 leave	
 ?[X1]	
 ?→	
 ?離開	
 ?[X1] (共起回数 =	
 ?100,英中翻訳確率 =	
 ?0.5)	
 ?
 leave	
 ?[X1]	
 ?→	
 ?留	
 ?[X1]   (共起回数 =	
 ?75,	
 ?	
 ?英中翻訳確率 =	
 ?0.3)	
 ?
	
 ?
合成された日中翻訳ルールの例:	
 ?
 [X1]を出る →離開	
 ?[X1] (共起回数 =	
 ?60,	
 ?日中翻訳確率 =	
 ?0.5↓)	
 ?
 [X1]を出る →	
 ?留	
 ?[X1]  (共起回数 = 60,	
 ?日中翻訳確率 =	
 ?0.5↓)	
 ?
 [X1] を残す→離開	
 ?[X1] (共起回数 = 70,	
 ?日中翻訳確率 =	
 ?0.5↓)	
 ?
 [X1] を残す→	
 ?留 [X1]  (共起回数 = 70,	
 ?日中翻訳確率 =	
 ?0.5↓)	
 ?
提案法:	
 ?BidirecHonal	
 ?
l?? 手法3:	
 ?BidirecHonal	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 30	
c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt))
=
c(src, pvt)c(pvt,trg)
max c1(pvt),c2 (pvt)( )
c(src,trg) = c(src, pvt,trg)
pvt
∑
ルール対応の推定例	
 ?(BidirecHonal)	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 31	
日英翻訳ルール:	
 ?
 [X1]	
 ?を出る	
 ?→	
 ?leave	
 ?[X1] (共起回数 =	
 ?60,	
 ?日英翻訳確率 =	
 ?0.6)	
 ?
 [X1]	
 ?を残す	
 ?→	
 ?leave	
 ?[X1] (共起回数 =	
 ?70,日英翻訳確率 =	
 ?0.7)	
 ?
	
 ?
英中翻訳ルール:	
 ?
 leave	
 ?[X1]	
 ?→	
 ?離開	
 ?[X1] (共起回数 =	
 ?100,英中翻訳確率 =	
 ?0.5)	
 ?
 leave	
 ?[X1]	
 ?→	
 ?留	
 ?[X1]   (共起回数 =	
 ?75,	
 ?	
 ?英中翻訳確率 =	
 ?0.3)	
 ?
	
 ?
合成された日中翻訳ルールの例:	
 ?
 [X1]を出る →離開	
 ?[X1] (共起回数 =	
 ?min(60	
 ?×	
 ?0.5,	
 ?100	
 ?×	
 ?0.6)	
 ?= 30)	
 ?
 [X1]を出る →	
 ?留	
 ?[X1]  (共起回数 =	
 ?min(60	
 ?×	
 ?0.3,	
 ?75	
 ?	
 ?	
 ?×	
 ?0.6)	
 ?= 18)	
 ?
 [X1] を残す→離開	
 ?[X1] (共起回数 =	
 ?min(70	
 ?×	
 ?0.5,	
 ?100	
 ?×	
 ?0.7)	
 ?= 35)	
 ?
 [X1] を残す→	
 ?留 [X1]  (共起回数 = min(70	
 ?×	
 ?0.3,	
 ?75	
 ?	
 ?	
 ?×	
 ?0.7)	
 ?= 21)	
 ?
実験結果②	
 ?–	
 ?Fr	
 ?→	
 ?Es	
 ?(via	
 ?En)	
 ?
15/03/15	
 32	
Method	
 BLUE	
PBMT	
 Hiero	
Direct	
 40.15	
 40.19	
Cascade	
 36.20	
 36.30	
MarginalizaHon	
 39.13	
 38.75	
CountMin	
 38.25	
 37.89	
CountMin	
 ?
+Lex	
 ?MarginalizaHon	
38.77	
 37.92	
BidirecHon	
 38.52	
 38.28	
BidirecHon	
 ?
+Lex	
 ?MarginalizaHon	
39.16	
 38.82	
CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず
翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST
実験結果②	
 ?–	
 ?Fr	
 ?→	
 ?Zh	
 ?(via	
 ?En)	
 ?
15/03/15	
 33	
Method	
 BLUE	
PBMT	
 Hiero	
Direct	
 14.31	
 16.33	
 ?	
Cascade	
 14.	
 ?05	
 16.23	
MarginalizaHon	
 14.3	
 16.66	
CountMin	
 13.69	
 15.89	
CountMin	
 ?
+Lex	
 ?MarginalizaHon	
14.43	
 16.40	
BidirecHon	
 14.26	
 14.61	
BidirecHon	
 ?
+Lex	
 ?MarginalizaHon	
14.45	
 16.63	
Fr -> Es (via En)と同様の結果	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST
実験③	
 ?–	
 ?Merging	
 ?
直接学習した(小規模)モデルと合成されたモデルを合成	
 ?
l?? 結合手法1:	
 ?InterpolaHon 	
 ?	
 ?	
 ?[Zhu	
 ?et	
 ?al,	
 ?2014]	
 ?
	
 ?
	
 ?
	
 ?α	
 ?–	
 ?補完係数、慣例的に0.9を用いた	
 ?
	
 ?
l?? 結合手法2:	
 ?SumCount 	
 ?[Zhu	
 ?et	
 ?al,	
 ?2014]	
 ?
	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 34	
φ(trg | src) = αφ1(trg | src)+ (1?α)φ2 (trg | src)
pω (trg | src) = α pω (trg | src)+ (1?α)pω (trg | src)
c(src,trg) = c1(src,trg)+ c2 (src,trg)
実験結果③	
 ?–	
 ?Fr	
 ?→	
 ?Es	
 ?
15/03/15	
 35	
Method	
 BLUE	
 ?score	
 ?
Direct	
 ?→	
 ?Direct	
 ?w/	
 ?TriangulaHon	
PBMT	
 Hiero	
10k	
 ?Direct	
 40.15	
 40.19	
MarginalizaHon	
 39.13	
 38.75	
Direct	
 ?1k	
 ?
+	
 ?MarginalizaHon	
 ?100k	
 ?
(interpolaHon)	
	
 ?26.94	
 ?→	
 ?39.13	
 26.57	
 ?→	
 ?38.82	
Direct	
 ?1k	
 ?
+	
 ?BidirecHon	
 ?100k	
 ?
(integraHon)	
26.94	
 ?→	
 ?39.11	
 	
 ?26.57	
 ?→	
 ?38.72	
Direct	
 ?10k	
 ?
+	
 ?MarginalizaHon	
 ?
100k	
 ?(interpolaHon)	
36.23	
 ?→	
 ?39.25	
 37.67	
 ?→	
 ?38.89	
Direct	
 ?10k	
 ?
+	
 ?BidirecHon	
 ?100k	
 ?
(InterpolaHon	
36.23	
 ?	
 ?→	
 ?39.15	
 37.67	
 ?→	
 ?38.82	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST
実験結果③	
 ?–	
 ?Fr	
 ?→	
 ?Zh	
 ?
15/03/15	
 36	
Method	
 BLUE	
 ?score	
 ?
Direct	
 ?→	
 ?Direct	
 ?w/	
 ?TriangulaHon	
PBMT	
 Hiero	
10k	
 ?Direct	
 14.31	
 16.33	
MarginalizaHon	
 14.43	
 16.63	
Direct	
 ?1k	
 ?
+	
 ?MarginalizaHon	
 ?100k	
 ?
(interpolaHon)	
4.30	
 ?→	
 ?14.48	
 4.18	
 ?→	
 ?16.40	
Direct	
 ?1k	
 ?
+	
 ?BidirecHon	
 ?100k	
 ?
(integraHon)	
4.30	
 ?→	
 ?14.45	
 4.18	
 ?→	
 ?16.43	
Direct	
 ?10k	
 ?
+	
 ?MarginalizaHon	
 ?
100k	
 ?(interpolaHon)	
13.28	
 ?→	
 ?14.47	
 	
 ?16.78	
 ?→	
 ?16.67	
Direct	
 ?10k	
 ?
+	
 ?BidirecHon	
 ?100k	
 ?
(InterpolaHon	
13.28	
 ?→	
 ?14.44	
 16.78	
 ?→	
 ?16.59	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST
6. ?まとめ、今後の計画
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 37
まとめ、今後の計画	
 ?
まとめ	
 ?
l?? 共起回数の推定のみでは従来法のMarginalizaHonよりも精
度が出なかったが、語彙重み推定のみMarginalizaHonの手
法を採用することで従来法と同等か、それ以上の精度が出
せた	
 ?
l?? 直接学習したモデルと組み合わせることによる精度向上、	
 ?
カバレッジ向上の期待を持てる	
 ?
	
 ?
今後の計画:	
 ?
l?? ヒューリスティックに頼らない機械学習による翻訳確率推定
手法の提案	
 ?
l?? T2S翻訳モデルのテーブル合成によるピボット翻訳の実装	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 38
Overview	
 ?
1.? 研究背景
2.? 背景技術 ?-‐?? ?機械翻訳?方式
3.? 背景技術 ?-‐?? ?ピボット翻訳
4.? 研究概要
5.? 実験内容、結果と考察
6.? まとめ、今後の課題
7.? Appendix
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 39
7. ?Appendix
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 40
マルチセンテンス方式	
 ?
15/03/15	
 41	
SMT	
 ?
fr	
 ?→	
 ?en	
SMT	
 ?
en	
 ?→	
 ?zh	
input.fr	
 translated.zh	
train.fr-?‐en.fr	
 train.fr-?‐en.en	
 train.en-?‐zh.en	
 train.en-?‐zh.zh	
1	
2	
n	
	
prepared corpus	
 trained task	
 translated text	
(	
 )	
2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
ü?? O(n)
?? 逐次的ピボット翻訳と比して有意差なし
コーパス翻訳方式	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 42	
SMT	
 ?
en	
 ?→	
 ?zh	
SMT	
 ?
fr	
 ?→	
 ?zh	
train.fr-?‐en.en	
translated.zh	
 ?
as	
 ?
train.fr-?‐zh.zh	
translated.zh	
train.en-?‐zh.en	
 train.en-?‐zh.zh	
train.fr-?‐en.fr	
 ?
as	
 ?
train.fr-?‐zh.fr	
input.fr	
コーパス翻訳方式 ( Synthetic ) :
事前にコーパスを翻訳することで擬似的な対訳コーパスを生成
(De Gispert et al.,2006)
ü?? 擬似的な対訳コーパス生成による、言語資源獲得の恩恵
?? 学習データそのものに翻訳誤りが含まれる
ルール対応の推定法	
 ?
?? 仏英と英日から仏日翻訳モデルを推定:	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 43	
selon	
 ?leurs	
 ?[X0]	
according	
 ?to	
 ?their	
 ?[X0]	
 aper	
 ?their	
 ?[X0]	
に したが っ て	
 ?[X0]	
 その	
 ?[X0]	
 ?に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6
ルール対応の推定法	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 44	
selon	
 ?leurs	
 ?[X0]	
according	
 ?to	
 ?their	
 ?[X0]	
 aper	
 ?their	
 ?[X0]	
に したが っ て	
 ?[X0]	
 その	
 ?[X0]	
 ?に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6	
0.2 ?× ?0.4 ?= ?0.08
?? 仏英と英日から仏日翻訳モデルを推定:	
 ?
ルール対応の推定法	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 45	
selon	
 ?leurs	
 ?[X0]	
according	
 ?to	
 ?their	
 ?[X0]	
 aper	
 ?their	
 ?[X0]	
に したが っ て	
 ?[X0]	
 その	
 ?[X0]	
 ?に し たがい	
0.2	
 0.6	
0.4	
 1	
0.6	
0.2 ?× ?0.4 ?= ?0.08 0.2 ?× ?0.6 ?+ ?0.4 ?× ?1 ?= ?0.52
?? 仏英と英日から仏日翻訳モデルを推定:	
 ?
CountMin	
 ?(FULL)	
 ?
l?? 手法2:	
 ?CountMin(最小共起回数)	
 ?	
 ?[Zhu	
 ?et	
 ?al,	
 ?2014]	
 ?
	
 ?
15/03/15	
 2015?Akiva	
 ?Miura	
 ?	
 ?	
 ?AHC-?‐Lab,	
 ?IS,	
 ?NAIST	
 46	
c(src,trg) = min(c(src, pvt),c(pvt,trg))
pvt
∑
φ(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
ω(trg | src) =
c(src,trg)
c(src,trg')
trg'
∑
a = {(t,s)| ?p :(s, p) ∈a1 ∧(p,t) ∈a2}
pω (trg | src,a) =
1
{j |(i, j) ∈a}i=1
n
∏ ω(trgi | srcj
(i,j)∈a
∑ )

More Related Content

Kansai MT Pivot Arekore

  • 2. 自己紹介 ? l?? 氏名: ? ?三浦 明波 (ミウラ アキバ) ? ? ? ? ? l?? 経歴: ? ?神戸高専(3年修了中退) ? ?→ ?テクニオン ?– ?イスラエル工大 ?(B.Sc) ? ?→ ?NAIST ?(M1) ? l?? 関心事: ? ?? 多言語翻訳(建前) ? ?? 日本語 ? ヘブライ語 翻訳(本命) ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 2 ???????? ??????? ??????????????????? ??????????????????
  • 3. Overview ? 0. ??自?己紹介 1.? 研究背景 2.? 背景技術 ?-‐?? ?機械翻訳?方式 3.? 背景技術 ?-‐?? ?ピボット翻訳 4.? 研究概要 5.? 実験内容、結果と考察 6.? まとめ、今後の課題 7.? Appendix 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 3
  • 4. 1. ?研究背景 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 4
  • 5. 統計的機械翻訳 ? l?? 統計的機械翻訳(StaHsHcal ?Machine ?TranslaHon ?; ?SMT) ?: ? ? ? ? ? ? ?[Brown ?et ?al., ?1993] ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 5 ü?? ?人?手によるルール記述が不不要 ü?? 対訳コーパスの?文量量が増えるほど訳出の精度度が向上 対訳コーパス 単?言語 コーパス 翻訳モデル ?言語モデル デコーダ (翻訳機) 学習データ ?入?力力?文 出?力力?文 翻訳システム
  • 6. 多言語翻訳における課題 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 6 言語対(代表例) 対訳 ? コーパス 英語 ? フランス語 ? ? 英語 ? 日本語 ? 英語 ? カタルーニャ語 ? (?) ? ? 日本語 ? フランス語 ? (?) ? ? l?? 特定の?言語対において、 ?大規模な対訳コーパスを短期間で取得することは困難
  • 7. ピボット翻訳 ? 翻訳したいが対訳コーパスが無い… 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 7 フランス語 ?日本語? ピボット?言語(中間?言語)を導?入! フランス語 ?日本語英語 ピボット?言語を介して翻訳が可能に!! フランス語 ?日本語英語 ?
  • 8. 多言語翻訳における課題 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 8 言語対(代表例) 対訳 ? コーパス 英語 ? フランス語 ? ? 英語 ? 日本語 ? 英語 ? カタルーニャ語 ? (via ?スペイン語) ? ? 日本語 ? フランス語 ? (via ?英語) ? ? l?? ピボット翻訳によって学習データの取得困難性を緩和
  • 9. 多言語翻訳における課題 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 9 言語対(代表例) 対訳 ? コーパス 言語構造 ? の類似度 手法 (代表例) 英語 ? フランス語 ? ? ? ? 英語 ? 日本語 ? ? ? 英語 ? カタルーニャ語 ? (via ?スペイン語) ? ? ? ? 日本語 ? フランス語 ? (via ?英語?) ? ? ? ? l?? 機械翻訳には単語の並べ替え問題がつきまとう
  • 10. 2. ?背景技術 ?– ?機械翻訳?方式 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 10
  • 11. フレーズベース翻訳 ? l?? フレーズベース翻訳(Phrase-?‐Based ?Machine ?TranslaHon ?; ?PBMT) ?: ? ? ? ? ? ? ?[Koehn ?et ?al., ?2003] ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 11 ü?? ?シンプル、実装?運?用が容易易、?高速 ?? ?言語間の?高度度な並び替えは困難 natuerlich hat john spass ?am spiel of ?course john has fun ?with ?the game ドイツ語: 英語:
  • 12. 階層的フレーズベース翻訳 ? l?? 階層的フレーズベース翻訳 ? (Hierarchical ?Phrase-?‐Based ?Machine ?TranslaHon ?; ?Hiero) ?: ? ? ? ? ? ? ? ? ? ?[Chiang, ?2007] ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 12 ? ? ルール対応の例 (英日翻訳): ? ? ?[X0] ?of ?[X1] ?→ ?[X1] ?の ?[X0] ? ルールの適用例 : ? ? ? ?friends ?of ?Taro ?→ ?太郎 の 友人 ? ? ?the ?parents ?of ?Taro ?and ?Hanako ?→ 太郎 と 花子 の 両親 ? ? ü?? ??高度度な並び替えに対応可 ?? モデルサイズの肥?大化、計算時間の増?大、フレーズ??長の制限
  • 13. 統語ベース翻訳 ? l?? Tree-?‐to-?‐String翻訳 (T2S) ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 13 ü??? 構?文情報を?高精度度に捉えて翻訳が可能 ?? ? ? ?構?文解析器が必要、解析精度度に?大きく依存 X1:NP S VP X2:VBD X3:NP X1 X3 X2 (SVO → SOV)
  • 14. 多言語翻訳における課題 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 14 言語対(代表例) 対訳 ? コーパス 言語構造 ? の類似度 手法 (代表例) 英語 ? フランス語 ? ? ? PBMT 英語 ? 日本語 ? ? Hiero ? T2S, ?F2S 英語 ? カタルーニャ語 ? (via ?スペイン語) ? ? ? ? 日本語 ? フランス語 ? (via ?英語) ? ? ? ? l?? ?言語対によって翻訳?手法の向き不不向きがある
  • 15. 3. ?背景技術 ?– ?ピボット翻訳 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 15
  • 16. 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 16 SMT ? fr ?→ ?en SMT ? en ?→ ?zh input.fr translated.en translated.zh train.fr-?‐en.fr train.fr-?‐en.en train.en-?‐zh.en train.en-?‐zh.zh パイプライン処理によってピボット言語文を介して翻訳 [De Gispert et al.,2006] ü?? ?実現が容易易、機械翻訳?方式に依らず組合せ可能 ?? 翻訳誤りが伝播される、システム全体の最適化困難 逐次的ピボット翻訳 ?(Cascade) ?
  • 17. テーブル合成方式 ?(TriangulaHon) ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 17 Phrase ? Table ? fr ?→ ?en Phrase ? Table ? en ?→ ?zh input.fr translated.zh train.fr-?‐en.fr train.fr-?‐en.en train.en-?‐zh.en train.en-?‐zh.zh SMT ? fr ?→ ?zh 2つの翻訳モデルを1つに合成 [Cohn et al., 2007] ü?? 独?立立したモデルを?生成 ?? 翻訳確率率率の推定?方法に精度度が依存
  • 18. 多言語翻訳における課題 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 18 言語対(代表例) 対訳 ? コーパス 言語構造 ? の類似度 手法 (代表例) 英語 ? フランス語 ? ? ? PBMT 英語 ? 日本語 ? ? Hiero ? T2S, ?F2S 英語 ? カタルーニャ語 ? (via ?スペイン語) ? ? ? PBMT ?× 合成 日本語 ? フランス語 ? (via ?英語?) ? ? ? Hiero ?× 合成? ? T2S/F2S ?× ?合成?
  • 19. 4. ?研究概要 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 19
  • 20. 研究概要 ? l??調査したいこと: ①? Triangulation(テーブル合成?手法)は、 Hieroにおいても有効に機能するかどうか ?(昨年年12?月のNL研で発表) ②? Triangulationの精度度向上は可能かどうか ③? 既存の?言語資源をどう有効に?用いるか l?? ?用いたデータセット: ?? 国連?文書多?言語コーパスのうち、 仏英、英?西、英中の対訳コーパス10万?文ずつ 15/03/15 20 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST
  • 21. 5. ?実験内容、結果と考察 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 21
  • 22. 実験① ? Triangulationは、 Hieroにおいても有効に機能するかどうか ??? PBMTで有?用性が知られているテーブル合成?手法を、 Hieroにおいても適?用 ??? Direct(ピボットを介さない直接翻訳モデル)や、 ? Cascade(逐次的ピボット翻訳)と合わせて比較評価 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 22
  • 23. 従来手法: ?MarginalizaHon ? テーブル合成時に翻訳確率推定方法で比較 ? ? l?? 従来法1: ?MarginalizaHon(確率周辺化)[UHyama ?et ?al., ?2007] ? ? ? ? ? ? Φ ?– ?フレーズ翻訳確率 ? pω ?– ?語彙重み ? ? ※ 逆方向の翻訳確率も同様に推定 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 23 φ(trg | src) = φ(trg | pvt)φ(pvt | src) pvt∈T1∩T2 ∑ pω (trg | src) = pω (trg | pvt)pω (pvt | src) pvt∈T1∩T2 ∑
  • 24. ルール対応の推定例 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 24 日英翻訳ルール: ?  [X1] ?を出る ?→ ?leave ?[X1] (日英翻訳確率 = ?0.6) ?  [X1] ?を残す ?→ ?leave ?[X1] (日英翻訳確率 = ?0.7) ? ? 英中翻訳ルール: ?  leave ?[X1] ?→ ?離開 ?[X1] (英中翻訳確率 = ?0.5) ?  leave ?[X1] ?→ ?留 ?[X1]   (英中翻訳確率 = ?0.3) ? ? 合成された日中翻訳ルールの例: ?  [X1]を出る →離開 ?[X1] (日中翻訳確率 = 0.6 ?× ?0.5 ?= ?0.3) ?  [X1]を出る → ?留 ?[X1]  (日中翻訳確率 = 0.6 ?× ?0.3 ?= ?0.18) ?  [X1] を残す→離開 ?[X1] (日中翻訳確率 = 0.7 ?× ?0.5 ?= ?0.35) ?  [X1] を残す→ ?留 [X1]  (日中翻訳確率 = ?0.7 ?× ?0.3 ?= ?0.21) ?
  • 25. 実験結果① ?– ?Fr ?→ ?Es ?(via ?En) ? 15/03/15 25 Method BLUE PBMT ? Hiero Direct 40.15 40.19 Cascade 36.20 36.30 TriangulaHon ? (MarginalizaHon) 39.13 38.75 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST ü?? ?Direct ?> ?Triangulation ?> ?Cascade
  • 26. 実験結果① ?– ?Fr ?→ ?Zh ?(via ?En) ? 15/03/15 26 Method BLUE PBMT ? Hiero Direct 14.31 16.33 Cascade 14. ?05 16.23 TriangulaHon ? (MarginalizaHon) 14.3 16.66 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST ü?? ?Direct ?> ?Triangulation ?> ?Cascade
  • 27. 実験② ? Triangulationの精度度を上げられるかどうか ??? 昨年発表された新しい翻訳確率の推定方法で追実験 ? ??? もう一つ自分の提案方を導入 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 27
  • 28. 従来手法2: ?MarginalizaHon ? l?? 従来法2: ?CountMin(最小共起回数) ? ?[Zhu ?et ?al, ?2014] ? ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 28 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ c – 共起回数
  • 29. ルール対応の推定例 ?(CountMin) ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 29 日英翻訳ルール: ?  [X1] ?を出る ?→ ?leave ?[X1] (共起回数 = ?60, ?日英翻訳確率 = ?0.6) ?  [X1] ?を残す ?→ ?leave ?[X1] (共起回数 = ?70,日英翻訳確率 = ?0.7) ? ? 英中翻訳ルール: ?  leave ?[X1] ?→ ?離開 ?[X1] (共起回数 = ?100,英中翻訳確率 = ?0.5) ?  leave ?[X1] ?→ ?留 ?[X1]   (共起回数 = ?75, ? ?英中翻訳確率 = ?0.3) ? ? 合成された日中翻訳ルールの例: ?  [X1]を出る →離開 ?[X1] (共起回数 = ?60, ?日中翻訳確率 = ?0.5↓) ?  [X1]を出る → ?留 ?[X1]  (共起回数 = 60, ?日中翻訳確率 = ?0.5↓) ?  [X1] を残す→離開 ?[X1] (共起回数 = 70, ?日中翻訳確率 = ?0.5↓) ?  [X1] を残す→ ?留 [X1]  (共起回数 = 70, ?日中翻訳確率 = ?0.5↓) ?
  • 30. 提案法: ?BidirecHonal ? l?? 手法3: ?BidirecHonal ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 30 c(src, pvt,trg) = min(c(src, pvt)φ(trg | pvt),c(pvt,trg)φ(src | pvt)) = c(src, pvt)c(pvt,trg) max c1(pvt),c2 (pvt)( ) c(src,trg) = c(src, pvt,trg) pvt ∑
  • 31. ルール対応の推定例 ?(BidirecHonal) ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 31 日英翻訳ルール: ?  [X1] ?を出る ?→ ?leave ?[X1] (共起回数 = ?60, ?日英翻訳確率 = ?0.6) ?  [X1] ?を残す ?→ ?leave ?[X1] (共起回数 = ?70,日英翻訳確率 = ?0.7) ? ? 英中翻訳ルール: ?  leave ?[X1] ?→ ?離開 ?[X1] (共起回数 = ?100,英中翻訳確率 = ?0.5) ?  leave ?[X1] ?→ ?留 ?[X1]   (共起回数 = ?75, ? ?英中翻訳確率 = ?0.3) ? ? 合成された日中翻訳ルールの例: ?  [X1]を出る →離開 ?[X1] (共起回数 = ?min(60 ?× ?0.5, ?100 ?× ?0.6) ?= 30) ?  [X1]を出る → ?留 ?[X1]  (共起回数 = ?min(60 ?× ?0.3, ?75 ? ? ?× ?0.6) ?= 18) ?  [X1] を残す→離開 ?[X1] (共起回数 = ?min(70 ?× ?0.5, ?100 ?× ?0.7) ?= 35) ?  [X1] を残す→ ?留 [X1]  (共起回数 = min(70 ?× ?0.3, ?75 ? ? ?× ?0.7) ?= 21) ?
  • 32. 実験結果② ?– ?Fr ?→ ?Es ?(via ?En) ? 15/03/15 32 Method BLUE PBMT Hiero Direct 40.15 40.19 Cascade 36.20 36.30 MarginalizaHon 39.13 38.75 CountMin 38.25 37.89 CountMin ? +Lex ?MarginalizaHon 38.77 37.92 BidirecHon 38.52 38.28 BidirecHon ? +Lex ?MarginalizaHon 39.16 38.82 CountMinやBidirectionで共起回数の推定を行うのみだと精度出ず 翻訳確率推定にBidirection、語彙重み推定にMarginalizationで最も高い精度 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST
  • 33. 実験結果② ?– ?Fr ?→ ?Zh ?(via ?En) ? 15/03/15 33 Method BLUE PBMT Hiero Direct 14.31 16.33 ? Cascade 14. ?05 16.23 MarginalizaHon 14.3 16.66 CountMin 13.69 15.89 CountMin ? +Lex ?MarginalizaHon 14.43 16.40 BidirecHon 14.26 14.61 BidirecHon ? +Lex ?MarginalizaHon 14.45 16.63 Fr -> Es (via En)と同様の結果 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST
  • 34. 実験③ ?– ?Merging ? 直接学習した(小規模)モデルと合成されたモデルを合成 ? l?? 結合手法1: ?InterpolaHon ? ? ?[Zhu ?et ?al, ?2014] ? ? ? ?α ?– ?補完係数、慣例的に0.9を用いた ? ? l?? 結合手法2: ?SumCount ?[Zhu ?et ?al, ?2014] ? ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 34 φ(trg | src) = αφ1(trg | src)+ (1?α)φ2 (trg | src) pω (trg | src) = α pω (trg | src)+ (1?α)pω (trg | src) c(src,trg) = c1(src,trg)+ c2 (src,trg)
  • 35. 実験結果③ ?– ?Fr ?→ ?Es ? 15/03/15 35 Method BLUE ?score ? Direct ?→ ?Direct ?w/ ?TriangulaHon PBMT Hiero 10k ?Direct 40.15 40.19 MarginalizaHon 39.13 38.75 Direct ?1k ? + ?MarginalizaHon ?100k ? (interpolaHon) ?26.94 ?→ ?39.13 26.57 ?→ ?38.82 Direct ?1k ? + ?BidirecHon ?100k ? (integraHon) 26.94 ?→ ?39.11 ?26.57 ?→ ?38.72 Direct ?10k ? + ?MarginalizaHon ? 100k ?(interpolaHon) 36.23 ?→ ?39.25 37.67 ?→ ?38.89 Direct ?10k ? + ?BidirecHon ?100k ? (InterpolaHon 36.23 ? ?→ ?39.15 37.67 ?→ ?38.82 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST
  • 36. 実験結果③ ?– ?Fr ?→ ?Zh ? 15/03/15 36 Method BLUE ?score ? Direct ?→ ?Direct ?w/ ?TriangulaHon PBMT Hiero 10k ?Direct 14.31 16.33 MarginalizaHon 14.43 16.63 Direct ?1k ? + ?MarginalizaHon ?100k ? (interpolaHon) 4.30 ?→ ?14.48 4.18 ?→ ?16.40 Direct ?1k ? + ?BidirecHon ?100k ? (integraHon) 4.30 ?→ ?14.45 4.18 ?→ ?16.43 Direct ?10k ? + ?MarginalizaHon ? 100k ?(interpolaHon) 13.28 ?→ ?14.47 ?16.78 ?→ ?16.67 Direct ?10k ? + ?BidirecHon ?100k ? (InterpolaHon 13.28 ?→ ?14.44 16.78 ?→ ?16.59 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST
  • 37. 6. ?まとめ、今後の計画 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 37
  • 38. まとめ、今後の計画 ? まとめ ? l?? 共起回数の推定のみでは従来法のMarginalizaHonよりも精 度が出なかったが、語彙重み推定のみMarginalizaHonの手 法を採用することで従来法と同等か、それ以上の精度が出 せた ? l?? 直接学習したモデルと組み合わせることによる精度向上、 ? カバレッジ向上の期待を持てる ? ? 今後の計画: ? l?? ヒューリスティックに頼らない機械学習による翻訳確率推定 手法の提案 ? l?? T2S翻訳モデルのテーブル合成によるピボット翻訳の実装 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 38
  • 39. Overview ? 1.? 研究背景 2.? 背景技術 ?-‐?? ?機械翻訳?方式 3.? 背景技術 ?-‐?? ?ピボット翻訳 4.? 研究概要 5.? 実験内容、結果と考察 6.? まとめ、今後の課題 7.? Appendix 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 39
  • 40. 7. ?Appendix 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 40
  • 41. マルチセンテンス方式 ? 15/03/15 41 SMT ? fr ?→ ?en SMT ? en ?→ ?zh input.fr translated.zh train.fr-?‐en.fr train.fr-?‐en.en train.en-?‐zh.en train.en-?‐zh.zh 1 2 n prepared corpus trained task translated text ( ) 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST ü?? O(n) ?? 逐次的ピボット翻訳と比して有意差なし
  • 42. コーパス翻訳方式 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 42 SMT ? en ?→ ?zh SMT ? fr ?→ ?zh train.fr-?‐en.en translated.zh ? as ? train.fr-?‐zh.zh translated.zh train.en-?‐zh.en train.en-?‐zh.zh train.fr-?‐en.fr ? as ? train.fr-?‐zh.fr input.fr コーパス翻訳方式 ( Synthetic ) : 事前にコーパスを翻訳することで擬似的な対訳コーパスを生成 (De Gispert et al.,2006) ü?? 擬似的な対訳コーパス生成による、言語資源獲得の恩恵 ?? 学習データそのものに翻訳誤りが含まれる
  • 43. ルール対応の推定法 ? ?? 仏英と英日から仏日翻訳モデルを推定: ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 43 selon ?leurs ?[X0] according ?to ?their ?[X0] aper ?their ?[X0] に したが っ て ?[X0] その ?[X0] ?に し たがい 0.2 0.6 0.4 1 0.6
  • 44. ルール対応の推定法 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 44 selon ?leurs ?[X0] according ?to ?their ?[X0] aper ?their ?[X0] に したが っ て ?[X0] その ?[X0] ?に し たがい 0.2 0.6 0.4 1 0.6 0.2 ?× ?0.4 ?= ?0.08 ?? 仏英と英日から仏日翻訳モデルを推定: ?
  • 45. ルール対応の推定法 ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 45 selon ?leurs ?[X0] according ?to ?their ?[X0] aper ?their ?[X0] に したが っ て ?[X0] その ?[X0] ?に し たがい 0.2 0.6 0.4 1 0.6 0.2 ?× ?0.4 ?= ?0.08 0.2 ?× ?0.6 ?+ ?0.4 ?× ?1 ?= ?0.52 ?? 仏英と英日から仏日翻訳モデルを推定: ?
  • 46. CountMin ?(FULL) ? l?? 手法2: ?CountMin(最小共起回数) ? ?[Zhu ?et ?al, ?2014] ? ? 15/03/15 2015?Akiva ?Miura ? ? ?AHC-?‐Lab, ?IS, ?NAIST 46 c(src,trg) = min(c(src, pvt),c(pvt,trg)) pvt ∑ φ(trg | src) = c(src,trg) c(src,trg') trg' ∑ ω(trg | src) = c(src,trg) c(src,trg') trg' ∑ a = {(t,s)| ?p :(s, p) ∈a1 ∧(p,t) ∈a2} pω (trg | src,a) = 1 {j |(i, j) ∈a}i=1 n ∏ ω(trgi | srcj (i,j)∈a ∑ )