狠狠撸

狠狠撸Share a Scribd company logo
形态素苍-驳谤补尘と正规表现による
      語法?用例検索の手法

            同志社大学 長谷部陽一郎
       yhasebe@mail.doshisha.ac.jp
          同志社ことばの会 年次大会
               2008年2月11日
はじめに
?       本発表で行うこと
        ?   日本語を扱う理論言語学研究で、コーパスを効果的に用いた語法?用
            例検索を行う手法についての考察
        ?   表層形と文法的素性の両面から目標テキストを抽出するために開発し
            たシステムの紹介
        ?   現時点での問題と、それらを回避するための方法の提示
        ?   「追試可能な言語分析」に向けての提案




    2                       同志社ことばの会年次大会   2008年2月11日
理論言語学とコーパス
?       理論言語学におけるコーパス利用の目的
        ?   語彙頻度表?分布表の作成?参照
        ?   コロケーションの抽出?分析
        ?   語法?用例の検索


?       認知言語学とコーパス言語学との接近
        ?   規則とリストの誤謬
        ?   用法基盤モデルに基づいた文法研究
        ?   必ずしも数量データに重きを置かない方法論の可能性

                                              具体化(elaboration)
                                スキーマ
                                              拡張(extension)

                                              スキーマ化(schematization)

                       プロトタイプ          拡張事例
                                                   (Langacker 2000: 13)


    3                              同志社ことばの会年次大会     2008年2月11日
テキスト検索の一般的手法
例として、次のような英文から「動詞過去形+the+名詞句」をできるだけ多く
抽出することを考える。


Sammy plucked the guitar, while Eddie played the piano.


?       通常検索(非正規表現検索)
        ed theで検索
        Sammy plucked the guitar, while Eddie played the piano.


?       正規表現検索
        /?s.*?ed?sthe?s.+?[?s?.,]/ で検索
        Sammy plucked the guitar, while Eddie played the piano.


    4                                       同志社ことばの会年次大会          2008年2月11日
正規表現とは
?       正規表現(regular expressions)
        形式言語理論に起源を持つ、文字列集合を定義するためのメタ言語。プ
        ログラミング言語やテキストエディタにおけるパターンマッチング用の表記
        法として広く用いられている。


Sammy plucked the guitar, while Eddie played the piano.


                _ + ...ed + _ + the + _ + ... + (_ | . | ,)



         正規表現        ?s.+?ed?sthe?s.+?[?s?.,]

    5                                同志社ことばの会年次大会       2008年2月11日
正规表现検索の限界
    ?   文字列の表層形だけに着目した検索には限界がある
        ?   不規則動詞の過去形は? the+NP以外の目的語は?
        ?   過去形以外の動詞についても含めたい場合は?


    ?   対象が日本語になるとさらに困難な事柄が増える
        ?   日本語テキストでは空白による分かち書きがなされていない。
        ?   同音異義語が多く、ナイーブな検索の結果には大量のノイズが含ま
            れることが予想される。

        ?   次のような日本語の文から、名詞+格助詞「を」+動詞 という条件を満たす
            文字列を抽出する方法は?

            太郎はピアノを弾き、次郎はギターをかき鳴らした。


6                             同志社ことばの会年次大会   2008年2月11日
形態素解析システムの利用
計算機上のプログラムを用いて、ある程度の精度で日本語テキストの構造
を解析することが可能。(JUMAN, KAKASI, ChaSen, MeCab)
?       MeCabの出力例
太郎はピアノを弾き、次郎はギターをかき鳴らした。
太郎       名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は       助詞,係助詞,*,*,*,*,は,ハ,ワ
ピアノ 名詞,一般,*,*,*,*,ピアノ,ピアノ,ピアノ
を       助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
弾き       動詞,自立,*,*,五段?カ行イ音便,連用形,弾く,ヒキ,ヒキ
、       記号,読点,*,*,*,*,、,、,、
次郎       名詞,固有名詞,人名,名,*,*,次郎,ジロウ,ジロー
は       助詞,係助詞,*,*,*,*,は,ハ,ワ
ギター 名詞,一般,*,*,*,*,ギター,ギター,ギター
を       助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
かき鳴らし         動詞,自立,*,*,五段?サ行,連用形,かき鳴らす,カキナラシ,カキナラシ
た       助動詞,*,*,*,特殊?タ,基本形,た,タ,タ
。       記号,句点,*,*,*,*,。,。,。

表層形 品詞,細分類1,細分類2,細分類3,活用形,活用型,原型,読み,発音

    7                                         同志社ことばの会年次大会   2008年2月11日
n-gramについて
?       n-gram
        ?   テキストに含まれる文字列の頻度および出現確率を調査するために広
            く用いられる手法。n個のプリミティブごとに文字列を区切ったものを単
            位として計算処理を行う。(1-gram, 2-gram, 3-gram, ...)

?       文字をプリミティブとした3-gramの例
             太郎はピアノを弾いた (→ 8個の3-gram)
             太   郎    は
                 郎    は    ピ
                      は    ピ    ア
                           ピ    ア       ノ
                                ア       ノ   を
                                        ノ   を    弾
                                            を    弾   い
                                                 弾   い   た


    8                                           同志社ことばの会年次大会   2008年2月11日
形态素苍-驳谤补尘と正规表现による検索
?   形態素解析システムによって出力された形態素データをプリミティブとして
    n-gramを構築する。
?   nはマッチングさせたい形態素数により決定される。
    例えば名詞+「を」+動詞が条件ならばn=3である。
                           検索対象                                 正規表現

形態素列(太郎|は|ピアノ|を|弾き|、...)のの3-gram                               表層形     素性

太郎         は         ピアノ                                   1         /名詞/
名詞,固有名詞    助詞,格助詞    名詞,一般                                 2   /を/
           は         ピアノ          を                        3         /動詞/
           助詞,格助詞    名詞,一般        助詞,格助詞
                     ピアノ          を        弾き
                     名詞,一般        助詞,格助詞   動詞,自立
                                  を        弾き      、
                                  名詞,一般    動詞,自立   記号,読点




    9                                      同志社ことばの会年次大会        2008年2月11日
Mconcの開発
?    プログラムの特徴
     ?   http://mconc.rubyforge.org からダウンロード可能。
     ?   形态素苍-驳谤补尘と正规表现による語法?用例検索システム。
     ?   開発言語はRuby。Windows上で動作。GUIあり。
     ?   形態素解析にはMeCabを利用(CのAPIを用いてアクセス)。
     ?   検索条件の指定にはYAML形式の設定ファイルを利用。
     ?   入力テキストはプレーンテキスト形式。
     ?   センテンスの単位(基本的に句点ごと)に分割して処理。
     ?   結果の出力はCSV形式(Excel等で読み込めるように)。
     ?   文字コードはUTF-8/EUC/Shift JISのいずれか。
     ?   複数ファイルの指定が可能。

?    Mconcの使用例
     ?   日本語の分裂構文(~のは~だ)を含むセンテンスを抽出。
     ?   対象コーパスはWikipedia日本語版のダンプデータ(2007年2月10日版)。


    10                           同志社ことばの会年次大会     2008年2月11日
Mconcの入出力
 条件設定の例                              抽出されたセンテンスの例
 -                          ①
                                     ?   これを手書きにしたのは手塚治虫である。(漫画)
 - surface: /^の$/           ②
   feature: /^名詞/           ③        ?   日本の鉱業の中心を占めるのはイオウである。(日
                                         本)
 - surface: /^は$/           ④
                                     ?   現在の市域が確定するのは19世紀半ばナポレオン3
   feature: /^助詞,係助詞/       ⑤            世治下のことである。(パリ)
 --                         ⑥        ?   したがって、自由な利用が可能となるのは2041年1月
 - feature: /^助動詞,.*特殊?ダ/   ⑦            1日午前零時からである。(著作権の保護)
                                     ?   ただし、日常の口語で使われているのは標準ドイツ語
1.   第1の指定形態素。行頭のハイフンは形態素ユニットの区          ではなく、ドイツ南部等と同じ高地ドイツ語系の方言で
     切り。ハイフンのみの行は1個の任意の形態素にマッチ           ある。(オーストリア)

2.   第2の指定形態素の表層形は「の」                ?   フランス軍撤退後、混乱を収拾して権力を掌握したの
                                         はオスマン帝国が派遣したアルバニア人部隊の隊長
3.   第2の指定形態素の素性記述は「名詞」で始まる              としてエジプトにやってきた軍人、ムハンマド?アリーで
4.   第3の指定形態素の表層形は「は」                    あった。(エジプト)

5.   第3の指定形態素の素性記述は「助詞,係助詞」で始まる。     ?   特に問題となるのは著作者人格権の中の同一性保持
                                         権の扱いである。(GNU Free Document License)
6.   2個のハイフン(のみ)の行は後続する条件にマッチするま
                                     ?   1656年7月27日に破門を受けたのは、恐らくこのため
     でまたはセンテンス末までの、任意の数の形態素にマッチ
                                         である。(バールーフ?デ?スピノザ)
7.   第4の指定形態素の素性記述は「助動詞」で始まり、「特      ?   こういう場合の「こんにちは」に相当するのはBuenas
     殊?ダ」を含む(すなわち助動詞「だ」か、その活用形「で」)       tardesではなくholaである。(スペイン語)


     11                                  同志社ことばの会年次大会           2008年2月11日
問題とその解決策
?    問題
     1. 形態素解析システム(+辞書)の性能の限界。
     2. 条件設定を書くために正規表現とMconcの書式とを習得する必要がある。
     3. 前節の条件設定では、いわゆる分裂構文と認めにくいものも抽出される。
         ?   自然言語が数学的に定義される普遍類別代数系でないのは勿論である。(形式言語)
         ?   そのような生命が未だ発見されていない以上、それについて論議するのは危険である... (生物)

     4. 詳細な条件にマッチさせるためには巨大なコーパスが必要。


?    解決策
     1. 不可避だが、常に向上しつつはある。
     2. 現状では不可避。(検索の強力さと手順の複雑さとはトレードオフ)
     3. 多くの場合、条件設定の見直しによりある程度は改善可能。あるいは、出力後
        に目視によるチェックを行うことも現実的な方法として考え得る。
     4. Wikipediaや青空文庫のデータなどはコーパスとして用いるのに十分なサイズを備
        えている。これらは著作権上の問題もクリアしやすい。


    12                                 同志社ことばの会年次大会     2008年2月11日
効用と可能性
?    追試可能な言語分析のための基盤として
     ?   理論言語学の議論のためのデータとして、通常は研究者の文法的直感に基づ
         いた作例が用いられている
     ?   文法とはある種のスキーマだとすれば、それを語るには低次の事例/インスタ
         ンスの存在が保証されなければならない。
     ?   科学的な手続きとして、「これこれの手順を踏めば、Aという事例が得られる」と
         いうことを示すことが理想。
     ?   データとプログラムをすべてオープンソースのもので完結させることが重要。


?    計量的研究への応用
     ?   上の条件が満たされるならば、同じ手法を計量的な研究に用いることも可能。
     ?   完全でないシステムによる機械処理の結果を、どのような仕組みと過程により
         それが出力されたかを併記しつつ示す。



    13                      同志社ことばの会年次大会   2008年2月11日
まとめ
 ?   形態素n-gramと正規表現を組み合わせることで、語法?用例検索のために
     コーパスを効果的に利用することが可能。
 ?   この手法を実現するプログラムとしてMconcを開発。
 ?   Mconcの実装に内在する問題と、コーパス検索自体に関わるより一般的な問
     題がある。しかし、工夫によってある程度は解決(ないしは回避)できる。
 ?   認知言語学の用法基盤主義を徹底させる上で、分析対象となる語法?用例を
     実際のテキストから抽出する方法の確立は重要。
 ?   現状において、計算機上のシステムは完全でない。しかし、プログラムの仕組
     と処理の過程を公開し、問題の所在をトラッキングする手段を提供する限りに
     おいて、価値は保たれる。

     コーパス            計算処理           理論的考察

       ? Wikipedia    ? Mconc         ? 認知文法
       ? 青空文庫         ? MeCab         ? 認知意味論
       ? etc          ? etc           ? etc


14                          同志社ことばの会年次大会   2008年2月11日
リファレンス
?    プログラム
     Mconc         http://mconc.rubyforge.org/
     WP2TXT        http://wp2txt.rubyforge.org/
     MeCab         http://mecab.sourceforge.net/


?    コーパス
     Wikipedia     http://ja.wikipedia.org/wiki/WP:DD/
     青空文庫          http://www.aozora.gr.jp/


?    参考文献
     長谷部 陽一郎 2006 「Wikipedia日本語版をコーパスとして用いた言語研究の手法」
       『言語文化(同志社大学言語文化学会)』 第9号, 373?403.
     Langacker, Ronald W. 2000. “Dynamic Usage-Based Model,” M. Barlow and S. Kemmer
        (eds.), Usage-Based Models of Language. Stanford: CSLI, 1-65.17




    15                                             同志社ことばの会年次大会         2008年2月11日

More Related Content

Using morphological n-gram and regex for linguistic research

  • 1. 形态素苍-驳谤补尘と正规表现による 語法?用例検索の手法 同志社大学 長谷部陽一郎 yhasebe@mail.doshisha.ac.jp 同志社ことばの会 年次大会 2008年2月11日
  • 2. はじめに ? 本発表で行うこと ? 日本語を扱う理論言語学研究で、コーパスを効果的に用いた語法?用 例検索を行う手法についての考察 ? 表層形と文法的素性の両面から目標テキストを抽出するために開発し たシステムの紹介 ? 現時点での問題と、それらを回避するための方法の提示 ? 「追試可能な言語分析」に向けての提案 2 同志社ことばの会年次大会 2008年2月11日
  • 3. 理論言語学とコーパス ? 理論言語学におけるコーパス利用の目的 ? 語彙頻度表?分布表の作成?参照 ? コロケーションの抽出?分析 ? 語法?用例の検索 ? 認知言語学とコーパス言語学との接近 ? 規則とリストの誤謬 ? 用法基盤モデルに基づいた文法研究 ? 必ずしも数量データに重きを置かない方法論の可能性 具体化(elaboration) スキーマ 拡張(extension) スキーマ化(schematization) プロトタイプ 拡張事例 (Langacker 2000: 13) 3 同志社ことばの会年次大会 2008年2月11日
  • 4. テキスト検索の一般的手法 例として、次のような英文から「動詞過去形+the+名詞句」をできるだけ多く 抽出することを考える。 Sammy plucked the guitar, while Eddie played the piano. ? 通常検索(非正規表現検索) ed theで検索 Sammy plucked the guitar, while Eddie played the piano. ? 正規表現検索 /?s.*?ed?sthe?s.+?[?s?.,]/ で検索 Sammy plucked the guitar, while Eddie played the piano. 4 同志社ことばの会年次大会 2008年2月11日
  • 5. 正規表現とは ? 正規表現(regular expressions) 形式言語理論に起源を持つ、文字列集合を定義するためのメタ言語。プ ログラミング言語やテキストエディタにおけるパターンマッチング用の表記 法として広く用いられている。 Sammy plucked the guitar, while Eddie played the piano. _ + ...ed + _ + the + _ + ... + (_ | . | ,) 正規表現 ?s.+?ed?sthe?s.+?[?s?.,] 5 同志社ことばの会年次大会 2008年2月11日
  • 6. 正规表现検索の限界 ? 文字列の表層形だけに着目した検索には限界がある ? 不規則動詞の過去形は? the+NP以外の目的語は? ? 過去形以外の動詞についても含めたい場合は? ? 対象が日本語になるとさらに困難な事柄が増える ? 日本語テキストでは空白による分かち書きがなされていない。 ? 同音異義語が多く、ナイーブな検索の結果には大量のノイズが含ま れることが予想される。 ? 次のような日本語の文から、名詞+格助詞「を」+動詞 という条件を満たす 文字列を抽出する方法は? 太郎はピアノを弾き、次郎はギターをかき鳴らした。 6 同志社ことばの会年次大会 2008年2月11日
  • 7. 形態素解析システムの利用 計算機上のプログラムを用いて、ある程度の精度で日本語テキストの構造 を解析することが可能。(JUMAN, KAKASI, ChaSen, MeCab) ? MeCabの出力例 太郎はピアノを弾き、次郎はギターをかき鳴らした。 太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ ピアノ 名詞,一般,*,*,*,*,ピアノ,ピアノ,ピアノ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 弾き 動詞,自立,*,*,五段?カ行イ音便,連用形,弾く,ヒキ,ヒキ 、 記号,読点,*,*,*,*,、,、,、 次郎 名詞,固有名詞,人名,名,*,*,次郎,ジロウ,ジロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ ギター 名詞,一般,*,*,*,*,ギター,ギター,ギター を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ かき鳴らし 動詞,自立,*,*,五段?サ行,連用形,かき鳴らす,カキナラシ,カキナラシ た 助動詞,*,*,*,特殊?タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 表層形 品詞,細分類1,細分類2,細分類3,活用形,活用型,原型,読み,発音 7 同志社ことばの会年次大会 2008年2月11日
  • 8. n-gramについて ? n-gram ? テキストに含まれる文字列の頻度および出現確率を調査するために広 く用いられる手法。n個のプリミティブごとに文字列を区切ったものを単 位として計算処理を行う。(1-gram, 2-gram, 3-gram, ...) ? 文字をプリミティブとした3-gramの例 太郎はピアノを弾いた (→ 8個の3-gram) 太 郎 は 郎 は ピ は ピ ア ピ ア ノ ア ノ を ノ を 弾 を 弾 い 弾 い た 8 同志社ことばの会年次大会 2008年2月11日
  • 9. 形态素苍-驳谤补尘と正规表现による検索 ? 形態素解析システムによって出力された形態素データをプリミティブとして n-gramを構築する。 ? nはマッチングさせたい形態素数により決定される。 例えば名詞+「を」+動詞が条件ならばn=3である。 検索対象 正規表現 形態素列(太郎|は|ピアノ|を|弾き|、...)のの3-gram 表層形 素性 太郎 は ピアノ 1 /名詞/ 名詞,固有名詞 助詞,格助詞 名詞,一般 2 /を/ は ピアノ を 3 /動詞/ 助詞,格助詞 名詞,一般 助詞,格助詞 ピアノ を 弾き 名詞,一般 助詞,格助詞 動詞,自立 を 弾き 、 名詞,一般 動詞,自立 記号,読点 9 同志社ことばの会年次大会 2008年2月11日
  • 10. Mconcの開発 ? プログラムの特徴 ? http://mconc.rubyforge.org からダウンロード可能。 ? 形态素苍-驳谤补尘と正规表现による語法?用例検索システム。 ? 開発言語はRuby。Windows上で動作。GUIあり。 ? 形態素解析にはMeCabを利用(CのAPIを用いてアクセス)。 ? 検索条件の指定にはYAML形式の設定ファイルを利用。 ? 入力テキストはプレーンテキスト形式。 ? センテンスの単位(基本的に句点ごと)に分割して処理。 ? 結果の出力はCSV形式(Excel等で読み込めるように)。 ? 文字コードはUTF-8/EUC/Shift JISのいずれか。 ? 複数ファイルの指定が可能。 ? Mconcの使用例 ? 日本語の分裂構文(~のは~だ)を含むセンテンスを抽出。 ? 対象コーパスはWikipedia日本語版のダンプデータ(2007年2月10日版)。 10 同志社ことばの会年次大会 2008年2月11日
  • 11. Mconcの入出力 条件設定の例 抽出されたセンテンスの例 - ① ? これを手書きにしたのは手塚治虫である。(漫画) - surface: /^の$/ ② feature: /^名詞/ ③ ? 日本の鉱業の中心を占めるのはイオウである。(日 本) - surface: /^は$/ ④ ? 現在の市域が確定するのは19世紀半ばナポレオン3 feature: /^助詞,係助詞/ ⑤ 世治下のことである。(パリ) -- ⑥ ? したがって、自由な利用が可能となるのは2041年1月 - feature: /^助動詞,.*特殊?ダ/ ⑦ 1日午前零時からである。(著作権の保護) ? ただし、日常の口語で使われているのは標準ドイツ語 1. 第1の指定形態素。行頭のハイフンは形態素ユニットの区 ではなく、ドイツ南部等と同じ高地ドイツ語系の方言で 切り。ハイフンのみの行は1個の任意の形態素にマッチ ある。(オーストリア) 2. 第2の指定形態素の表層形は「の」 ? フランス軍撤退後、混乱を収拾して権力を掌握したの はオスマン帝国が派遣したアルバニア人部隊の隊長 3. 第2の指定形態素の素性記述は「名詞」で始まる としてエジプトにやってきた軍人、ムハンマド?アリーで 4. 第3の指定形態素の表層形は「は」 あった。(エジプト) 5. 第3の指定形態素の素性記述は「助詞,係助詞」で始まる。 ? 特に問題となるのは著作者人格権の中の同一性保持 権の扱いである。(GNU Free Document License) 6. 2個のハイフン(のみ)の行は後続する条件にマッチするま ? 1656年7月27日に破門を受けたのは、恐らくこのため でまたはセンテンス末までの、任意の数の形態素にマッチ である。(バールーフ?デ?スピノザ) 7. 第4の指定形態素の素性記述は「助動詞」で始まり、「特 ? こういう場合の「こんにちは」に相当するのはBuenas 殊?ダ」を含む(すなわち助動詞「だ」か、その活用形「で」) tardesではなくholaである。(スペイン語) 11 同志社ことばの会年次大会 2008年2月11日
  • 12. 問題とその解決策 ? 問題 1. 形態素解析システム(+辞書)の性能の限界。 2. 条件設定を書くために正規表現とMconcの書式とを習得する必要がある。 3. 前節の条件設定では、いわゆる分裂構文と認めにくいものも抽出される。 ? 自然言語が数学的に定義される普遍類別代数系でないのは勿論である。(形式言語) ? そのような生命が未だ発見されていない以上、それについて論議するのは危険である... (生物) 4. 詳細な条件にマッチさせるためには巨大なコーパスが必要。 ? 解決策 1. 不可避だが、常に向上しつつはある。 2. 現状では不可避。(検索の強力さと手順の複雑さとはトレードオフ) 3. 多くの場合、条件設定の見直しによりある程度は改善可能。あるいは、出力後 に目視によるチェックを行うことも現実的な方法として考え得る。 4. Wikipediaや青空文庫のデータなどはコーパスとして用いるのに十分なサイズを備 えている。これらは著作権上の問題もクリアしやすい。 12 同志社ことばの会年次大会 2008年2月11日
  • 13. 効用と可能性 ? 追試可能な言語分析のための基盤として ? 理論言語学の議論のためのデータとして、通常は研究者の文法的直感に基づ いた作例が用いられている ? 文法とはある種のスキーマだとすれば、それを語るには低次の事例/インスタ ンスの存在が保証されなければならない。 ? 科学的な手続きとして、「これこれの手順を踏めば、Aという事例が得られる」と いうことを示すことが理想。 ? データとプログラムをすべてオープンソースのもので完結させることが重要。 ? 計量的研究への応用 ? 上の条件が満たされるならば、同じ手法を計量的な研究に用いることも可能。 ? 完全でないシステムによる機械処理の結果を、どのような仕組みと過程により それが出力されたかを併記しつつ示す。 13 同志社ことばの会年次大会 2008年2月11日
  • 14. まとめ ? 形態素n-gramと正規表現を組み合わせることで、語法?用例検索のために コーパスを効果的に利用することが可能。 ? この手法を実現するプログラムとしてMconcを開発。 ? Mconcの実装に内在する問題と、コーパス検索自体に関わるより一般的な問 題がある。しかし、工夫によってある程度は解決(ないしは回避)できる。 ? 認知言語学の用法基盤主義を徹底させる上で、分析対象となる語法?用例を 実際のテキストから抽出する方法の確立は重要。 ? 現状において、計算機上のシステムは完全でない。しかし、プログラムの仕組 と処理の過程を公開し、問題の所在をトラッキングする手段を提供する限りに おいて、価値は保たれる。 コーパス 計算処理 理論的考察 ? Wikipedia ? Mconc ? 認知文法 ? 青空文庫 ? MeCab ? 認知意味論 ? etc ? etc ? etc 14 同志社ことばの会年次大会 2008年2月11日
  • 15. リファレンス ? プログラム Mconc http://mconc.rubyforge.org/ WP2TXT http://wp2txt.rubyforge.org/ MeCab http://mecab.sourceforge.net/ ? コーパス Wikipedia http://ja.wikipedia.org/wiki/WP:DD/ 青空文庫 http://www.aozora.gr.jp/ ? 参考文献 長谷部 陽一郎 2006 「Wikipedia日本語版をコーパスとして用いた言語研究の手法」 『言語文化(同志社大学言語文化学会)』 第9号, 373?403. Langacker, Ronald W. 2000. “Dynamic Usage-Based Model,” M. Barlow and S. Kemmer (eds.), Usage-Based Models of Language. Stanford: CSLI, 1-65.17 15 同志社ことばの会年次大会 2008年2月11日