狠狠撸
Submit Search
おーぷん万叶プロジェクトとは
?
0 likes
?
2,855 views
Masahiko Hashimoto
Follow
おーぷん万叶の説明です。后半部分は话をした场所が异なるだけで、2週间前に话したネタの使い回しとなっています。ごめんなさい镑镑
Read less
Read more
1 of 18
Download now
Download to read offline
More Related Content
おーぷん万叶プロジェクトとは
1.
おーぷん万叶プロジェクトとは? 2015/12/29 @IM飲み会 はしもとまさひこ 注:後半部分は以前のネタの使い回しです^^;
2.
自己紹介 ● 東海道らぐ(Tokaido Linux User
Group)の案内人 ● その他、日本openSUSEユーザ会の人 ● おーぷん万葉プロジェクトを始めてます – 本日の紹介する内容 ● 実は理系ではなく元々は文系の人間です – 某大学の文学部日本文学文学科卒 – ケータイメールの研究などもしてました
3.
お詫び 内容的には非常に拙い内容となっております^^ 予めご了承くださいm(_ _)m
4.
おーぷん万叶プロジェクトとは ● 目的「オープンな日本語辞書を手に入れよう!」 – どんなアプリでも使用可能な(中立の)日本語辞書を作りたい 現在は… – オープンソースのかな漢字変換ソフトを開発中 –
オープンソースカンファレンスや関西オープンフォーラムに出展 – メンバーは3人…? ● 強引に巻き込んでしまってる方もいらしたり…
5.
以下はおーぷん万葉始めた当初のスライドより。 ※昨年OSC京都直後に(Wnnの)吉田智子先生に 見ていただいたスライドから抜粋です
6.
「おーぷん万葉」背景 ● 現在、国立国語研究所が Unidic という電子化辞書を公開している が、以下の点で十分とは言えない。 Unidic
: http://www.ninjal.ac.jp/corpus_center/unidic/ – 形態論情報を付与するための辞書であって、汎用性が皆無。 – コミュニティで作成しているわけではないため、追加したい用語 を追加できない。 ● かな漢字変換ソフト用の辞書が整備されていない。 – Googleのmozc等、ベンダー依存の開発体制になってしまっている。
7.
「おーぷん万葉」目的 ● コミュニティー主導による辞書構築を行う。 – 当面はかな漢字変換ソフトで使用できる辞書を作成する。 参考: SKKDICの辞書登録?削除希望フォーム http://openlab.ring.gr.jp/skk/registdic.cgi ● 日本語コーパスと単語の用例をまとめ、日本語研究を活発にする。 –
KOTONOHA計画のオープンソース版のようなものを構築する。 KOTONOHA計画: http://www.ninjal.ac.jp/corpus_center/kotonoha.html お金のない学生だって、コーパス使いたいですよね?^^;
8.
「おーぷん万葉」が目指す辞書 ● 類語辞書(例:国立国語研究所「分類語彙表」のようなもの)を、 コーパスから解析して作成する。 – 参考「係り受け関係を利用した類語?例文辞書構築法と大規模 コーパスへの適用」(2006 相澤、中渡瀬) http://www.jaist.ac.jp/jsai2006/program/pdf/100123.pdf ● インターネット上のコーパスを利用して、従来の類語辞書を自然言語 処理の観点から検証する。
9.
Mozcは結構使われている ● Google日本語入力のオープンソース版 ● 多くのLinuxディストリビューションに採用 – Ubuntu – Debian –
openSUSE – Vine Linux ちなみにRedHat系はlibkkcを採用しています(二強?)
10.
Mozcの変換ロジック「コスト最小法」とは ※ツッコミ大歓迎です…^^;;; 文 頭 私 の 名前 は 中野 です 文 末ので
す 中 綿 市 花 課 例: 「わたしのなまえはなかのです」を変換する場合 (コストの値はテキトーです^^;) 10 30 15 30 15 10 15 40 20 50 ● 単語生起コスト:単語の出現優先度を表したコスト ● 連接コスト: 単語と単語の結びつきやすさを表したコスト → 全て足して合計値が最も低いルートが候補 15 30 40 45 20 20 20 20 50 20 25 30 40 45 20 20 出現頻度の高い単語は 単語生起コストが低い 「名前」と「花」という単語は結びつきにくいので 連接コストは高い
11.
Mozcは確かに優れたソフトではありますが… ● 単語と単語のつながりのみで判定 ● 文脈解釈とか意義解釈などはやっていない 元々mecab(=形態素解析器)で用いてた手法 → それは本当にかな漢字変換に向いてるの?
12.
例えば…誤変換の一例 「にわにはにわにわとりがいる」 ↓ 「庭には庭鶏がいる」 そういえばMacOSの変換もこうなりますよね ※ちなみにGoogle日本語入力ではちゃんと変換するらしい…?
13.
これはコスト最小法で変換できるの? 庭 庭 鶏には
が いる 庭 二 鶏には が いる羽 正解の変換のほうが単語数が多いため 単語生起コストが高くなる可能性が高い? N文節最長一致法の場合は恐らく実装による 「二羽」で1文節だがそもそもそんな単語が辞書にあるか…
14.
おーぷん万葉で目指す辞書は… ● おーぷん万葉で目指す辞書は係り受け関係を 利用したオープンな日本語辞書 ● こんなのだって変換できるはず!…? 庭には 二羽(の) 鶏が
いる
15.
だがしかし、 口だけだったらなんとでも言えますよね!?^^;
16.
おーぷん万葉プロジェクトからお願い ● 協力者を募集しています!!! – かな漢字変換ソフトを開発したい方 – IM(インプットメソッド)をどうにかしたい方 –
日本語辞書を開発したい方 – こんなネタがあるよ?と提案してくださる方
17.
Anthy最終版リリース & mozc初版リリース 2009年 ?それから6年? そろそろ新しいかな漢字変換を つくってみませんか?
18.
ご清聴、ありがとうございました!
Download