狠狠撸
Submit Search
二格深层格の定量的分析
?
0 likes
?
838 views
长冈技术科学大学 自然言语処理研究室
Follow
松田 真希子, 森 篤嗣, 川村 よし子, 庵 功雄, 山本 和英, 山口昌也. 二格深层格の定量的分析. 言語処理学会第20回年次大会, pp.516-519 (2014.3)
Read less
Read more
1 of 1
Download now
Download to read offline
More Related Content
二格深层格の定量的分析
1.
松田 真希子* 森 篤嗣** 川村 よし子***
庵 功雄****山本和英山口昌也* *金沢大学, **帝塚山大学, ***東京国際大学,****一橋大学, 長岡技術科学大学, *国立国語研究所 mts@staff.kanazawa-?‐u.ac.jp,moria24@gmail.com, kawamura@;u.ac.jp, isaoiori@courante.plala.or.jp, yamamoto@jnlp.org, masaya@ninjal.ac.jp はじめに 先行研究 女性 政治 地方 相手 結果と考察1:深層格の出現割合?コーパス毎の深層格の頻度傾向の比較 図1 深層格の出現割合(全体) お気に入りログイン 企業遊び 利用した言語資源およびツール [1]国立国語研究所現代日本語書き言葉均衡コ ーパス (BCCWJ). 表2:3種のコーパスに対する深層格付与の結果 WEB関係 動作主 表示 なる 縦軸に「発送」「注文」「確認」といったWeb関連の語が並び,横軸に 「行く」「来る」「出る」「する」といった基本動詞が並んだ. 「場所」「時間」は名詞の場合同様,中心から離れた位置に出現し た.このことからこの二つの深層格は前接名詞にも後接動詞にも 特徴があると言える. →先行研究においても定性的に深層格が切り出された理由ではな いか 国立国語研究所, 2011. hIp://www.ninjal.ac.jp/corpus center/bccwj. [2]工藤拓, 賀沢秀人. Web日本語Nグラム第1版,言語資源協会, 2007. hIp://www.gsk.or.jp/catalog/gsk2007-?‐c/. [3]黒橋禎夫, 河原大輔. 京都大学テキストコーパス?プロジェクト. 言語処理学会 第 3 回年次大会, pp.115-?‐118,1997. 参考文献 [1] 松田真希子,森篤嗣,川村よし子,庵功雄, 山口昌也,山本和英「日本語深層格の自動抽出のためのコーパス開発」『言語処理学会第18回年次大会発表論文集』205-?‐208, 2012 [2] 城田俊『日本語形態論』ひつじ書房, 2002 [3] 鈴木重幸『日本語文法?形態論』むぎ書房, 1978 [4] 奥田靖雄「二格の名詞と動詞のくみあわせ」言語学研究会編『日本語文法?連語論(資料編)』281-?‐323,むぎ書房, 1983 [5] 石綿敏雄『現代言語理論と格』ひつじ書房, 1999 [6] 高橋太郎『日本語の文法』ひつじ書房, 2005 [7] 庵 功雄, 中西 久実子, 山田 敏弘, 高梨 信乃『初級を教える人のための日本語文法ハンドブック』スリーエーネットワーク,2000 [8] 竹野峻輔,松田真希子,梶原智之,山本和英「機械学習を用いたニ格深層格の自動付与の検討」『言語処理学会第20回年次大会発表論文集』(印刷中),2014 [9] 田辺利文, 吉村賢治, 首藤公昭. 格格助詞「に」の深層格推定 -?‐格助詞の意味再考-?‐. 情報処理学会研究報告, No.113, 65-?‐72, 2009. 本研究はH23-?‐25 科学研究費補助金基盤研究(B) 「文脈依存の意味情報を判別する機能表現抽出WEBシステムの開発と運用実験」[課題番号23320105]の助成を受けている. 世界 社会 条件 対す 戻る できる 結果 いう する さら ある 行う 選挙 表示 関係 いる 情報 女性 参加連絡 投稿 時代 経済 日本 政治 管理 対応 商品 動作主 図2 全深層格 総句数19,603句,総抽出語数200,552語, 語の最小出現数80以上 (1)二格深層格の出現比率はコーパス(新聞、Web、BCCWJ)によって有意な差がある. 特に「場所」,「複合辞」,「目的」における差が顕著である. (2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった. 特に「対象」(間接目的語)の頻度が高い. 一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない. (3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果, 「結果」「複合辞」「その他」>「副詞」「目的」>「時間」「場所」の順に 他の深層格との隔たりが確認された. これに対して,「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため, 深層格推定にも困難が予想される(但し動作主はヴォイスの活用を見ることで判別が容易になりうる) →定性的には分類が可能な「動作主」「役割」「頻度」「起点」「対象」といった深層格については, 共起語彙(辞書形)上では大きな差が見出しにくい. こうした傾向の表す意味についてはさらにアノテーションの適切さや例を詳細に検討していく必要がある. また,今回はコーパス設計段階でBCCWJの二格からの単語数を他のコーパスと揃えて設定しなかった ため,主成分分析では除外せざるを得なかった.併せて今後の課題にしたい. -2 0 2 4 -1 0 1 2 3 4 5 成分1 (51.53%) 成分2 (42.08%) 登録 掲載 参加 追加 メール 対応 利用 投稿 確認 発送 関連 注文 連絡 検索 関係 管理 コメント 行く 入る 出る 入れる思う 見る 向ける 来る する ある いる できる いう 頻度 対象 起点 場所 役割 時間 基本動詞 0 1 2 3 4 -1 0 1 2 3 4 成分1 (55.26%) 成分2 (33.14%) 商品 情報 ページ 記事 中心 サイト 自分 時代 会社 子供 地域 友達 内容 経済 事前 リスト 政府 対象 頻度 対象 起点 場所 役割 動作主 時間 0 1 2 3 4 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 成分1 (37.9%) 成分2 (25.03%) なる よる つく 基づく 気 行く 発送 とも 月 参考 年 利用 見る 注文 追加 記事 掲載 ページ 出る 確認 入る 人 登録 関連 中心 購入 入れる メール 使う サイト 検索 思う 自分 社会 企業 世界 副詞 複合辞 頻度 対象 起点 その他 目的場所 役割 時間 「結果」の深層格が付与された2418句中1330句に「なる」が含ま れていた. 「複合辞」も「によって」(431句),「について」(355句)などが大半 図3深層格と名詞 名詞/語の最小出現数40以上,累積寄与率88% 図4 深層格と動詞 動詞/語の最小出現数60以上,累積寄与率93% 名詞の場合,縦軸は「事前」「時代」「政府」「記事」と新聞記事に 関わる語によって軸が構成され,横軸は「ログイン」「リスト」等 Webに関わる語によって軸が構成された. Web 京大 BCCWJ χ2値 時間 842 1023 673 84.5** 場所 111 307 578 326.7** 結果 1235 1182 1090 16.5** 対象 4136 3646 4293 91.0** 動作主 64 105 207 82.7** 目的 533 168 329 211.2** 副詞 1183 1116 740 141.0** 頻度 8 47 10 44.5** 役割 1249 1101 1145 16.1** 起点 16 12 12 0.95 複合辞 434 1052 867 265.4** その他 1249 1101 1145 16.1** 句数 9827 10001 10154 例文 先行研究 時間 8時に起きる [2][3][4][5][6][7] 場所 公園に現れる [4][5] ハワイにいる [2][3][4][5][6][7] 東京に行く/着く [2][3][4][5][6][7] 結果 息子を医者にする [5][7] どろどろに溶ける [5][6][7] コの字型にならべる [5] 医者になる [3][5][6] 対象 実験に成功する [2][6] AはBにまさる [2][5] 対応に怒る [2][4][5][6] 説明に困る,彼にほれる [2][4][5][6] 駅に近い,父に似る [2][3][6] 父に手紙をあげる [2][3][4][5][7] 服にくっつく [2][3][4][5][6] お母さんに甘える [2][3][4] 動作主 太郎に殴られる 私にできること [2][5][6] 目的 映画を見に行く [3][4][5][6] 役割 貿易を外交の手段に用いる [6] 頻度* 三年に一回 [7] 副詞化* 元気に歩く, お気軽に申し付け下さい [4] 複合辞* 環境について語る 法律に基づく表示 [3][6] 起点* 太郎にもらう [7] その他 真犯人にちがいない,口に出す,役にたつ [4][5] 「場所」(BCCWJ>京大> Web ) 「複合辞」(京大>BCCWJ>Web) 「目的」(Web>BCCWJ>京大) →助詞であっても、深層格で見るとコーパスによる出現頻度 の差がある→深層格情報の必要性 表1 提案深層格リストと先行研究との関係 定量的に見ると深層格の頻度に差がある .特に「対象」(いわゆる間接目的語)の頻度が高い. 一方「場所」や「時間」の頻度は全体の割合から 見るとさほど高くない. 「その他」の中の高頻度語句 敬語系 「ご覧になる」(49)「ご利用になる」(40) 慣用句系 「気になる」(123)「役に立つ」(37)「気分になる」 (16)(「なる」に前接するものが非常に多い) 格の意味的な規定を指す深層格リストは多くの研究者によって提案されているが,共通見解は得られていない. 現在、深層格の自動推定技術の開発のため最も深層格の類型の多い助詞である二格を対象に 先行研究を整理した上で妥当性の高い深層格リストを提案し, 3種類のコーパス(Web, 京大コーパス、BCCWJ)合計30,000句)に人手でアノテーションを行った. その後,ナイーブベイズ法を用いて3種のコーパス別に深層格推定の精度評価を行った[8]. 本論文では二格深層格コーパスに対して言語学的見地から定量的分析を行った結果について報告する. ※本事業ではニ格の他、ガ格、ノ格、デ格、ヲ格の深層格を人手で付与したコーパス (Webコーパス、各20000句以上)を開発し公開している。 hIps://sites.google.com/a/jnlp.org/matsuda2013/ 言語研究における二格深層格リストの提案に関するものは数多く,代表的なものでは[2][3][4][5][6][7]等がある. そのうち[4](奥田靖雄「二格の名詞と動詞のくみあわせ」)が最も多くの語例に基づいた詳細な分類がなされており, 二格の深層格推定研究にも応用されている[9]. しかし,全ての深層格リストの提案は人手で収集された限られた小規模コーパスの分類から 定性的に導かれたもので定量的分析によって導かれたものは管見の限りない. 研究手法 先行研究を基にタグリストを再検討し,コーパスに人手でアノテーションし, 得られたコーパスを基に定量的に分析を行った. 深層格タグリストの作成の流れ (1)EDR辞書の関係子の見直し (2)[2]-?‐[7]等の文献を参照して見直し (3)言語学の専門家メンバー(森、庵、川村、松田)が下の設計方針に基づき最終的に決定 設計方針 (1)他の助詞との置き換えの可否や二格に前接?後接する語の品詞等,客観的基準によって分類が可能なものを 優先的に分類(例:太郎にもらう→太郎からもらう) (2)意味上の隔たりが小さいものは一つにまとめる 深層格をアノテーションしたコーパス(各2万句以上。公開予定) (1) Web日本語Nグラム(以下Web) インターネット上にある膨大なコーパスに基づく情報で汎用性が高いため (1) 京都大学テキストコーパス(以下京大) 京都大学テキストコーパスのアノテーション情報を今後深層格推定に利用するため。毎日新聞95年版。 (1) 現代日本語書き言葉均衡コーパス(以下BCCWJ) (学術的に公開された日本語の均衡コーパスとして最大のものであるため 新聞記事 Web関係 「なる」関連語彙 新聞記事 まとめと今後の課題 「結果」「複合辞」 「その他」は共起語 の偏りが大きいた め周辺に出現 「時間」場所」は共 起語の傾向が異な るため周辺に出現 結果と考察2:深層格前後の出現語彙による主成分分析
Download