2012 09-25-sig-ifat
- 1. 日本语记述の緻密化を目指した
超大規模コーパスの構築
国立国語研究所
コーパス開発センター
浅原 正幸 前川 喜久雄
今田 水穂 保田 祥 小西 光
2012/9/25 SIG-IFAT short talk 1
- 3. 超大规模コーパスプロジェクト(2011-2016)
Web テキストを中心に100億語規模のテキストコーパスを構築
Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス(イメージ)
開発研究
構築 応用
1 0 0 億 語
『日本語記述の緻密化を 日 言語変化
無作為抽出
目指した超大規模コーパス』 本 の分析 研究者?
情報源 : ウェブ上の全日本語データ 語 辞書編集者
文書タイプ 言語モデルの
超
情報推定 大 構築
目 的 : 稀言語現象の情報を収集し、
より実態を反映した日本語 規 応用のための
「言語モデル」の構築を目指す 形態素解析 模 統計量推定 企業?出版社
コ
工 夫 : ウェブ文書タイプ情報の自動推定
自動形態素解析によりデータ収集 時系列データ ー 辞書用例の
の効率化を図る 追加 パ 自動抽出
応 用 : 機械翻訳?音声翻訳の精度向上 ス
国語(日本語)辞書の用例自動収集
1 億 語 日本語使用実態の定量的な把握に
『現代日本語書き言葉 基づく言語政策の策定に貢献 [人文学系分野]
均衡コーパス』
Ⅲ 実施体制
情報源 : 書籍?雑誌?新聞(約3500万語)
【将 来】
図書館の図書(約3000万語)
特定分野毎(約3500万語)
目 的 : 実際に使用されたデータから
【連携研究機関】
「代表データ」を提示
問題点 : 規模が小さい [工学系分野]
手作業のため収集に限界 【現 状】
2012/9/25 SIG-IFAT short talk 3
- 4. Web アーカイブシステムの構成
? 収集
– Heritrix クローラに基づく、月次のバルク収集
– テキスト(HTML)のみの収集
? 組織化
– リンクー被リンク情報の構造化
– 収集日時の保存
– メタデータ(出自)を補完するレジスタ推定
– 教師なし機械学習に基づく未知語収集と人手による辞書構築
– 文分割、形態素解析、文節認定、係り受け解析
? 利活用
– NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール
– Open Source Wayback による時系列提示
– 接尾辞配列による文用例検索ツール
? 保存
– WARC ファイル形式(ISO 28500:2009)による永続保存
– 収集月毎の語彙表/N-gram情報の保存
2012/9/25 SIG-IFAT short talk 4