狠狠撸

日本语记述の緻密化を目指した
超大規模コーパスの構築

国立国語研究所
コーパス開発センター
浅原正幸前川喜久雄
今田水穂保田祥小西光

2012/9/25 SIG-IFAT short talk 1

国立国語研究所は
Web アーカイブを構築します


超大规模コーパスプロジェクト(2011-2016)
Web テキストを中心に100億語規模のテキストコーパスを構築

Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス（イメージ）
開発研究
構築応用
1 0 0 億語
『日本語記述の緻密化を日言語変化
無作為抽出
目指した超大規模コーパス』本の分析研究者?

情報源 : ウェブ上の全日本語データ語辞書編集者
文書タイプ言語モデルの
超
情報推定大構築
目的 : 稀言語現象の情報を収集し、
より実態を反映した日本語規応用のための
「言語モデル」の構築を目指す形態素解析模統計量推定企業?出版社
コ
工夫 : ウェブ文書タイプ情報の自動推定
自動形態素解析によりデータ収集時系列データー辞書用例の
の効率化を図る追加パ自動抽出
応用 : 機械翻訳?音声翻訳の精度向上ス
国語（日本語）辞書の用例自動収集
1 億語日本語使用実態の定量的な把握に
『現代日本語書き言葉基づく言語政策の策定に貢献 [人文学系分野]
均衡コーパス』
Ⅲ 実施体制
情報源 : 書籍?雑誌?新聞(約3500万語)
【将来】
図書館の図書(約3000万語)
特定分野毎(約3500万語)

目的 : 実際に使用されたデータから
【連携研究機関】
「代表データ」を提示

問題点 : 規模が小さい [工学系分野]
手作業のため収集に限界【現状】


Web アーカイブシステムの構成
? 収集
– Heritrix クローラに基づく、月次のバルク収集
– テキスト(HTML)のみの収集
? 組織化
– リンクー被リンク情報の構造化
– 収集日時の保存
– メタデータ（出自）を補完するレジスタ推定
– 教師なし機械学習に基づく未知語収集と人手による辞書構築
– 文分割、形態素解析、文節認定、係り受け解析
? 利活用
– NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール
– Open Source Wayback による時系列提示
– 接尾辞配列による文用例検索ツール
? 保存
– WARC ファイル形式(ISO 28500:2009)による永続保存
– 収集月毎の語彙表/N-gram情報の保存


狠狠撸

2012 09-25-sig-ifat

More Related Content

2012 09-25-sig-ifat