狠狠撸

狠狠撸Share a Scribd company logo
日本语记述の緻密化を目指した
       超大規模コーパスの構築

                  国立国語研究所
                コーパス開発センター
              浅原 正幸   前川 喜久雄
            今田 水穂   保田 祥  小西 光


2012/9/25         SIG-IFAT short talk   1
国立国語研究所は
Web アーカイブを構築します



2012/9/25   SIG-IFAT short talk   2
超大规模コーパスプロジェクト(2011-2016)
        Web テキストを中心に100億語規模のテキストコーパスを構築

    Ⅰ コーパスの現状と将来像                                  Ⅱ 超大規模コーパス(イメージ)
                                                                                    開発研究
                                                          構築               応用
                           1 0 0 億 語
                  『日本語記述の緻密化を                                   日           言語変化
                                                       無作為抽出
                    目指した超大規模コーパス』                               本            の分析     研究者?

                  情報源 : ウェブ上の全日本語データ                            語                    辞書編集者
                                                       文書タイプ               言語モデルの
                                                                超
                                                        情報推定    大            構築
                  目 的 : 稀言語現象の情報を収集し、
                        より実態を反映した日本語                            規          応用のための
                        「言語モデル」の構築を目指す                 形態素解析    模           統計量推定    企業?出版社
                                                                コ
                  工 夫 : ウェブ文書タイプ情報の自動推定
                        自動形態素解析によりデータ収集               時系列データ    ー          辞書用例の
                        の効率化を図る                         追加      パ           自動抽出
           応 用 : 機械翻訳?音声翻訳の精度向上                                 ス
                 国語(日本語)辞書の用例自動収集
       1 億 語     日本語使用実態の定量的な把握に
『現代日本語書き言葉       基づく言語政策の策定に貢献                                  [人文学系分野]
      均衡コーパス』
                                                      Ⅲ 実施体制
情報源 : 書籍?雑誌?新聞(約3500万語)
                                   【将 来】
      図書館の図書(約3000万語)
      特定分野毎(約3500万語)

目   的 : 実際に使用されたデータから
                                                               【連携研究機関】
        「代表データ」を提示

問題点 : 規模が小さい                                                    [工学系分野]
      手作業のため収集に限界         【現 状】


2012/9/25                                SIG-IFAT short talk                         3
Web アーカイブシステムの構成
? 収集
      – Heritrix クローラに基づく、月次のバルク収集
      – テキスト(HTML)のみの収集
? 組織化
      –     リンクー被リンク情報の構造化
      –     収集日時の保存
      –     メタデータ(出自)を補完するレジスタ推定
      –     教師なし機械学習に基づく未知語収集と人手による辞書構築
      –     文分割、形態素解析、文節認定、係り受け解析
? 利活用
      – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール
      – Open Source Wayback による時系列提示
      – 接尾辞配列による文用例検索ツール
? 保存
      – WARC ファイル形式(ISO 28500:2009)による永続保存
      – 収集月毎の語彙表/N-gram情報の保存

2012/9/25              SIG-IFAT short talk          4

More Related Content

2012 09-25-sig-ifat

  • 1. 日本语记述の緻密化を目指した 超大規模コーパスの構築 国立国語研究所 コーパス開発センター 浅原 正幸 前川 喜久雄 今田 水穂 保田 祥 小西 光 2012/9/25 SIG-IFAT short talk 1
  • 3. 超大规模コーパスプロジェクト(2011-2016) Web テキストを中心に100億語規模のテキストコーパスを構築 Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス(イメージ) 開発研究 構築 応用 1 0 0 億 語 『日本語記述の緻密化を 日 言語変化 無作為抽出 目指した超大規模コーパス』 本 の分析 研究者? 情報源 : ウェブ上の全日本語データ 語 辞書編集者 文書タイプ 言語モデルの 超 情報推定 大 構築 目 的 : 稀言語現象の情報を収集し、 より実態を反映した日本語 規 応用のための 「言語モデル」の構築を目指す 形態素解析 模 統計量推定 企業?出版社 コ 工 夫 : ウェブ文書タイプ情報の自動推定 自動形態素解析によりデータ収集 時系列データ ー 辞書用例の の効率化を図る 追加 パ 自動抽出 応 用 : 機械翻訳?音声翻訳の精度向上 ス 国語(日本語)辞書の用例自動収集 1 億 語 日本語使用実態の定量的な把握に 『現代日本語書き言葉 基づく言語政策の策定に貢献 [人文学系分野] 均衡コーパス』 Ⅲ 実施体制 情報源 : 書籍?雑誌?新聞(約3500万語) 【将 来】 図書館の図書(約3000万語) 特定分野毎(約3500万語) 目 的 : 実際に使用されたデータから 【連携研究機関】 「代表データ」を提示 問題点 : 規模が小さい [工学系分野] 手作業のため収集に限界 【現 状】 2012/9/25 SIG-IFAT short talk 3
  • 4. Web アーカイブシステムの構成 ? 収集 – Heritrix クローラに基づく、月次のバルク収集 – テキスト(HTML)のみの収集 ? 組織化 – リンクー被リンク情報の構造化 – 収集日時の保存 – メタデータ(出自)を補完するレジスタ推定 – 教師なし機械学習に基づく未知語収集と人手による辞書構築 – 文分割、形態素解析、文節認定、係り受け解析 ? 利活用 – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール – Open Source Wayback による時系列提示 – 接尾辞配列による文用例検索ツール ? 保存 – WARC ファイル形式(ISO 28500:2009)による永続保存 – 収集月毎の語彙表/N-gram情報の保存 2012/9/25 SIG-IFAT short talk 4