狠狠撸
Submit Search
おーぷん万叶プロジェクトの进捗と滨锄耻尘辞のその后
?
2 likes
?
3,540 views
Masahiko Hashimoto
Follow
おーぷん万葉プロジェクトの進捗とIzumoの進捗についてです。 2015/12/12 東海道らぐ@横浜で発表したものです。
Read less
Read more
1 of 18
Download now
Download to read offline
More Related Content
おーぷん万叶プロジェクトの进捗と滨锄耻尘辞のその后
1.
おーぷん万葉プロジェクトの進捗 …と、Izumoのその後 2015/12/12 東海道らぐ@横浜(in JSP) はしもとまさ
2.
自己紹介 ● 東海道らぐ元名古屋案内人です – 現在は関東地方担当。 ● ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人 – 冬コミ原稿書きました!
(12/31 東「メ」36b) …ん? またうち売り子やるの??? ● おーぷん万葉プロジェクトやってます!
3.
おーぷん万葉とは(過去スライドの話) ● 目的「自由な日本語入力環境を手に入れよう!」 – 現在: かな漢字変換ソフト「Izumo」を開発中。 ● 現状の問題点: –
ビックデータと叫ばれる時代に、開発がアクティブで 自由にコミットメントできる日本語入力システムがない??? – インプットメソッド(UI側)も残念な状況orz → そんな現状を打破したい!てのが目的です。 この辺りが過去(ぇ
4.
今年のおーぷん万葉の成果… ● 特になし(ぇ – 地道に実験ばかりに明け暮れた… – 一応OSCにはおーぷん万葉で出展 ● メンバーが1人→3人(?)になった –
意外にも方向性はほぼ一绪だった(…と思う(镑镑)
5.
来年は…①辞書構築に専念 ● 目的「自由な日本語入力環境を手に入れよう!」 → 「中立でオープンな日本語辞書を手に入れよう」 ● 来年のおーぷん万葉では… – どんなアプリでも利用できるオープンな辞書を開発する –
mecab依存の辞書から脱却 ● おーぷん万葉の対象から外れる(or 優先度が落ちる)もの – 日本語入力のUI部 ←IBusとかあの辺り M氏からツッコまれそう…^^; てことで後継プロジェクト募集中!!!
6.
来年は…②Izumo開発停止!? ● これまで =
かな漢字変換「Izumo」を開発 → 「Izumo」ではなく別の名前で開発します てか既にそれで動いてる… 理由: – Izumofsとか出てきてしまった!(ぎゃふん) – そもそも既にCannaのフォークを止めている ※ 但し、従来のCannaフォーク版はIzumoの名前を継続します 開発停止中だけどね? Izumoって名称は元々Cannaフォーク版だった頃の名残で 「Canna → 神無月 → Izumo」というものでした
7.
新しいかな漢字変換「Genji」 ● Izumo をやめて、
Genji を開発していきます パッケージ構成: – Genji: 大元のソフト(全体)。下記ライブラリを含む ● Murasaki: かな漢字変換&形態素解析のライブラリ ● Fujitsubo: 辞書管理のライブラリ ● Aoi: 入出力部のライブラリ ←Glibを使用 Fujitsubo辺りは変動ありかも…
8.
ここから先は Izumo→Genji の進捗 で、結局
Genji はどうなるの!?編
9.
従来のかな漢字変換の実装は? ● 過去: N文節最長一致法 ←
Canna 等 ● 現在: コスト最小法 ← mecab / Mozc 等 現在の主流は、ビタビアルゴリズム(コスト最小法) どの解説本にも載っているし、むしろそれしか載ってない
10.
解説① N文節最長一致法 ● 例文: 「きょうはあひるやきです」 今日 歯
あ 昼 焼きで 酢 今日は あ 昼 焼きです 今日は 家鴨 焼きです 今日は あひる焼きです 6文節 4文節 3文節 2文節 一番少ないのでこれを選択! ポイント: 文節 = 自立語(名詞?動詞等) + 付属語(助詞等)
11.
解説② コスト最小法 文 頭 私 の 名前 は 中野 注:ちょっと(かなり?)端折って説明します^^; です 文 末ので
す 中 綿 市 花 課 例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;) 10 30 15 30 15 10 15 40 20 50 ● 単語生起コスト: 単語の出現優先度を表したコスト ● 連接コスト: 単語と単語の結びつきやすさを表したコスト → 全て足して、合計値が最も低いルートが 候補になります 15 30 40 45 20 20 20 20 50 20 25 30 40 45 20 20 出現頻度の高い単語は 単語生起コストが低い 「名前」と「花」という単語は結びつきにくいので 連接コストは高い
12.
がしかし、コスト最小法って… ● 結局のところ、単語と単語のつながりしか 判定できてない ● 文脈解釈とか意義解釈とか全然やってないので 当たり前といえば当たり前かも 元々mecab(=形態素解析器)で用いてた手法 → それって本当にかな漢字変換には向いてるの?
13.
というわけでこんな例文 手元に Mozc がある場合は 「にわにはにわにわとりがいる」 を変換してみよう! (一発で変換できるか?)
14.
…何度も話しているので^^; Mozc だと 「庭には庭鶏がいる」 と変換されます こけこっこ?
15.
でもこれ、そもそものお話として… コスト最小法では変換できないのでは? 庭 庭 鶏には
が いる 庭 二 鶏には が いる羽 正解の変換のほうが単語数が多いため 単語生起コストがどうしても高くなる N文節最長一致法の場合は、恐らく実装による 「二羽」で1文節だが、そもそもそんな単語が辞書にあるか…
16.
仮説。 コスト最小法は形態素解析には向いていても かな漢字変換には不向きである…?
17.
というわけで「Genji」に課せられた課題 「にわにはにわにわとりがいる」を変換できること 対策案: (まだ実験中…) – 係り受けを利用する – 文節単位でコストを計算する ※ただし、なるべく計算に縛られたくない コスト最小法に変わる新しい実装が必要…かも
18.
ご清聴、ありがとうございましたm(_ _)m
Download