狠狠撸

狠狠撸Share a Scribd company logo
おーぷん万叶プロジェクトとは?
2015/12/29 @IM飲み会
はしもとまさひこ
注:後半部分は以前のネタの使い回しです^^;
自己紹介
●
東海道らぐ(Tokaido Linux User Group)の案内人
●
その他、日本openSUSEユーザ会の人
●
おーぷん万葉プロジェクトを始めてます
– 本日の紹介する内容
●
実は理系ではなく元々は文系の人間です
– 某大学の文学部日本文学文学科卒
– ケータイメールの研究などもしてました
お詫び
内容的には非常に拙い内容となっております^^
予めご了承くださいm(_ _)m
おーぷん万叶プロジェクトとは
●
目的「オープンな日本語辞書を手に入れよう!」
– どんなアプリでも使用可能な(中立の)日本語辞書を作りたい
現在は…
– オープンソースのかな漢字変換ソフトを開発中
– オープンソースカンファレンスや関西オープンフォーラムに出展
– メンバーは3人…?
●
強引に巻き込んでしまってる方もいらしたり…
以下はおーぷん万葉始めた当初のスライドより。
※昨年OSC京都直後に(Wnnの)吉田智子先生に
見ていただいたスライドから抜粋です
「おーぷん万葉」背景
●
現在、国立国語研究所が Unidic という電子化辞書を公開している
が、以下の点で十分とは言えない。
Unidic : http://www.ninjal.ac.jp/corpus_center/unidic/
– 形態論情報を付与するための辞書であって、汎用性が皆無。
– コミュニティで作成しているわけではないため、追加したい用語
を追加できない。
●
かな漢字変換ソフト用の辞書が整備されていない。
– Googleのmozc等、ベンダー依存の開発体制になってしまっている。
「おーぷん万葉」目的
●
コミュニティー主導による辞書構築を行う。
– 当面はかな漢字変換ソフトで使用できる辞書を作成する。
参考: SKKDICの辞書登録?削除希望フォーム
http://openlab.ring.gr.jp/skk/registdic.cgi
●
日本語コーパスと単語の用例をまとめ、日本語研究を活発にする。
– KOTONOHA計画のオープンソース版のようなものを構築する。
KOTONOHA計画:
http://www.ninjal.ac.jp/corpus_center/kotonoha.html
お金のない学生だって、コーパス使いたいですよね?^^;
「おーぷん万葉」が目指す辞書
●
類語辞書(例:国立国語研究所「分類語彙表」のようなもの)を、
コーパスから解析して作成する。
– 参考「係り受け関係を利用した類語?例文辞書構築法と大規模
コーパスへの適用」(2006 相澤、中渡瀬)
http://www.jaist.ac.jp/jsai2006/program/pdf/100123.pdf
●
インターネット上のコーパスを利用して、従来の類語辞書を自然言語
処理の観点から検証する。
Mozcは結構使われている
●
Google日本語入力のオープンソース版
●
多くのLinuxディストリビューションに採用
– Ubuntu
– Debian
– openSUSE
– Vine Linux
ちなみにRedHat系はlibkkcを採用しています(二強?)
Mozcの変換ロジック「コスト最小法」とは
※ツッコミ大歓迎です…^^;;;
文
頭
私
の 名前
は
中野 です
文
末ので す
中
綿 市 花 課
例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;)
10
30 15
30 15
10
15 40
20
50
●
単語生起コスト:単語の出現優先度を表したコスト
●
連接コスト: 単語と単語の結びつきやすさを表したコスト
→ 全て足して合計値が最も低いルートが候補
15
30 40
45
20
20
20
20
50
20
25
30
40
45
20
20
出現頻度の高い単語は
単語生起コストが低い
「名前」と「花」という単語は結びつきにくいので
連接コストは高い
Mozcは確かに優れたソフトではありますが…
●
単語と単語のつながりのみで判定
●
文脈解釈とか意義解釈などはやっていない
元々mecab(=形態素解析器)で用いてた手法
→ それは本当にかな漢字変換に向いてるの?
例えば…誤変換の一例
「にわにはにわにわとりがいる」
↓
「庭には庭鶏がいる」
そういえばMacOSの変換もこうなりますよね
※ちなみにGoogle日本語入力ではちゃんと変換するらしい…?
これはコスト最小法で変換できるの?
庭 庭 鶏には が いる
庭 二 鶏には が いる羽
正解の変換のほうが単語数が多いため
単語生起コストが高くなる可能性が高い?
N文節最長一致法の場合は恐らく実装による
「二羽」で1文節だがそもそもそんな単語が辞書にあるか…
おーぷん万葉で目指す辞書は…
●
おーぷん万葉で目指す辞書は係り受け関係を
利用したオープンな日本語辞書
●
こんなのだって変換できるはず!…?
庭には 二羽(の) 鶏が いる
だがしかし、
口だけだったらなんとでも言えますよね!?^^;
おーぷん万葉プロジェクトからお願い
●
協力者を募集しています!!!
– かな漢字変換ソフトを開発したい方
– IM(インプットメソッド)をどうにかしたい方
– 日本語辞書を開発したい方
– こんなネタがあるよ?と提案してくださる方
Anthy最終版リリース & mozc初版リリース
2009年
?それから6年?
そろそろ新しいかな漢字変換を
つくってみませんか?
ご清聴、ありがとうございました!

More Related Content

おーぷん万叶プロジェクトとは