狠狠撸

狠狠撸Share a Scribd company logo
おーぷん万葉プロジェクトの進捗
…と、Izumoのその後
2015/12/12 東海道らぐ@横浜(in JSP)
はしもとまさ
自己紹介
●
東海道らぐ元名古屋案内人です
– 現在は関東地方担当。
●
ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人
– 冬コミ原稿書きました! (12/31 東「メ」36b)
…ん? またうち売り子やるの???
●
おーぷん万葉プロジェクトやってます!
おーぷん万葉とは(過去スライドの話)
●
目的「自由な日本語入力環境を手に入れよう!」
– 現在: かな漢字変換ソフト「Izumo」を開発中。
●
現状の問題点:
– ビックデータと叫ばれる時代に、開発がアクティブで
自由にコミットメントできる日本語入力システムがない???
– インプットメソッド(UI側)も残念な状況orz
→ そんな現状を打破したい!てのが目的です。
この辺りが過去(ぇ
今年のおーぷん万葉の成果…
●
特になし(ぇ
– 地道に実験ばかりに明け暮れた…
– 一応OSCにはおーぷん万葉で出展
●
メンバーが1人→3人(?)になった
– 意外にも方向性はほぼ一绪だった(…と思う(镑镑)
来年は…①辞書構築に専念
●
目的「自由な日本語入力環境を手に入れよう!」
→ 「中立でオープンな日本語辞書を手に入れよう」
●
来年のおーぷん万葉では…
– どんなアプリでも利用できるオープンな辞書を開発する
– mecab依存の辞書から脱却
●
おーぷん万葉の対象から外れる(or 優先度が落ちる)もの
– 日本語入力のUI部 ←IBusとかあの辺り
M氏からツッコまれそう…^^;
てことで後継プロジェクト募集中!!!
来年は…②Izumo開発停止!?
● これまで = かな漢字変換「Izumo」を開発
→ 「Izumo」ではなく別の名前で開発します
てか既にそれで動いてる…
理由:
– Izumofsとか出てきてしまった!(ぎゃふん)
– そもそも既にCannaのフォークを止めている
※ 但し、従来のCannaフォーク版はIzumoの名前を継続します
  開発停止中だけどね?
Izumoって名称は元々Cannaフォーク版だった頃の名残で
「Canna → 神無月 → Izumo」というものでした
新しいかな漢字変換「Genji」
● Izumo をやめて、 Genji を開発していきます
パッケージ構成:
– Genji: 大元のソフト(全体)。下記ライブラリを含む
● Murasaki: かな漢字変換&形態素解析のライブラリ
● Fujitsubo: 辞書管理のライブラリ
● Aoi: 入出力部のライブラリ ←Glibを使用
Fujitsubo辺りは変動ありかも…
ここから先は Izumo→Genji の進捗
で、結局 Genji はどうなるの!?編
従来のかな漢字変換の実装は?
● 過去: N文節最長一致法 ← Canna 等
● 現在: コスト最小法 ← mecab / Mozc 等
現在の主流は、ビタビアルゴリズム(コスト最小法)
どの解説本にも載っているし、むしろそれしか載ってない
解説① N文節最長一致法
●
例文: 「きょうはあひるやきです」
今日 歯 あ 昼 焼きで 酢
今日は あ 昼 焼きです
今日は 家鴨 焼きです
今日は あひる焼きです
6文節
4文節
3文節
2文節
一番少ないのでこれを選択!
ポイント:
文節 = 自立語(名詞?動詞等) + 付属語(助詞等)
解説② コスト最小法
文
頭
私
の 名前
は
中野
注:ちょっと(かなり?)端折って説明します^^;
です
文
末ので す
中
綿 市 花 課
例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;)
10
30 15
30 15
10
15 40
20
50
●
単語生起コスト: 単語の出現優先度を表したコスト
●
連接コスト: 単語と単語の結びつきやすさを表したコスト
→ 全て足して、合計値が最も低いルートが
候補になります
15
30 40
45
20
20
20
20
50
20
25
30
40
45
20
20
出現頻度の高い単語は
単語生起コストが低い
「名前」と「花」という単語は結びつきにくいので
連接コストは高い
がしかし、コスト最小法って…
●
結局のところ、単語と単語のつながりしか
判定できてない
●
文脈解釈とか意義解釈とか全然やってないので
当たり前といえば当たり前かも
元々mecab(=形態素解析器)で用いてた手法
→ それって本当にかな漢字変換には向いてるの?
というわけでこんな例文
手元に Mozc がある場合は
「にわにはにわにわとりがいる」
を変換してみよう!
(一発で変換できるか?)
…何度も話しているので^^;
Mozc だと
「庭には庭鶏がいる」
と変換されます
こけこっこ?
でもこれ、そもそものお話として…
コスト最小法では変換できないのでは?
庭 庭 鶏には が いる
庭 二 鶏には が いる羽
正解の変換のほうが単語数が多いため
単語生起コストがどうしても高くなる
N文節最長一致法の場合は、恐らく実装による
「二羽」で1文節だが、そもそもそんな単語が辞書にあるか…
仮説。
コスト最小法は形態素解析には向いていても
かな漢字変換には不向きである…?
というわけで「Genji」に課せられた課題
「にわにはにわにわとりがいる」を変換できること
対策案: (まだ実験中…)
– 係り受けを利用する
– 文節単位でコストを計算する
※ただし、なるべく計算に縛られたくない
コスト最小法に変わる新しい実装が必要…かも
ご清聴、ありがとうございましたm(_ _)m

More Related Content

おーぷん万叶プロジェクトの进捗と滨锄耻尘辞のその后