狠狠撸

狠狠撸Share a Scribd company logo
自然言語処理 黒橋禎夫 著
第6章:意味の解析(1)
6.1 語の意味
6.1.1 語の意味の定義
6.1.2 語の創造的使用
6.1.3 シソーラス
6.2 同義性
6.2.1 同義語
6.2.2 分布類似度
6.3 多義性
6.3.1 多義語
6.3.2 語義曖昧性解消
初参加でいきなり発表者!?
自然言語処理:全くの専門外です、ド素人です
仕事は材料の研究者(吉武道子:前東京オリンピックを見たらしい)
でも???
仕事で必要になってしまいました???
独学するしかないケド???
とりあえずウェブでググれ?自然言語処理で有名な研究室のHPで
推薦している本
補欠繰り上がれなさそうだがどうしても参加したい!
?発表者枠なら空いている
6.1 語の意味
6.1.1 語の意味の定義
語の意味=語によって表現される概念
概念の本質的な特徴?性質
内包
概念に含まれる(属す)全て
外延
定義
A= {x|xは10以下の奇数} A= {1, 3, 5, 9}
生物
植物 動物
例:「植物」の定義:内包的定義&外延的定義
上位概念?類
下位概念?種
特徴?性質を
受け継ぐ
特徴?性質を受け
継ぐ最も近い類
種差
種子植物 シダ植物 コケ植物
具体例の列挙
上位概念?類
下位概念?種
特徴?性質を
受け継ぐ
国語辞典:光合成を行う生物。種子植物、シダ植物、コケ植物などが
ある。
6.1.2 語の創造的使用
(1) a. 彼女はダイヤモンドのようだ。:直喩
b. 彼女はダイヤモンドだ。 ←ダイヤモンド=輝くもの
c. 彼女はスターだ。←「星」=輝くもの
(2) a. 鍋を食べる。 中身-容器
b. 白バイに捕まる。 付属物-主体
c. 漱石を読む。 作者-作品
メタファー:特徴?属性(顕現性)に注目
メトメニー:近接性の関係による
6.1.3 シソーラス
シソーラス=意味の上位下位関係、同義関係を中心に語を体系的
にまとめた辞書
?最初:1852年、英国の医師P.Roget(Roger’s Thesaurus)
?自然言語分野:1980年代~
プリンストン大学G.Mille、WordNet
最新版:WordNet3.0、12万synset(同義語の集合)、15万語
http://wordnet.Princeton.edu/
放送大学テキスト「自然言語処理」 6章 意味の解析(1)
Synset:同意
語の集合
上位語
下位語
部分語
WordNet:synsetのリンク
Synset:同意
語の集合
WordNetの多言語への拡張
EuroWordNet:ヨーロッパ言語への拡張
中国語?アラビア語?インド諸言語のWordNet
日本語WordNet
日本語シソーラス
国立国語研究所による分類語彙集
EDR電子化辞書プロジェクトによる概念体系辞書
NTTによる日本語語彙体系
Wikipediaなどウェブ上の大規模辞書から、用語の説明?定義が「種差
+最近類」となっていることを利用して上位下位関係を自動抽出
大規模コーパスから分布類似度の計算によって同義関係を捉える
6.2 同義性
ある意味を持つ語が複数ある: 同義性
ある語が複数の意味を持つ: 多義性
意味A
語1
意味A
語3語2
意味B 意味C
語1
同義性 多義性
6.2 同義性
6.2.1 同義語
表記の異なり:
?{center, centre}、{りんご、リンゴ、林檎}、{受付、受け付け}
?{あつい、あっつい、あつーい}
異なる語:
?{コンピュータ、計算機}
?{NHK、日本放送協会}
?{He、ヘリウム}
?{美しい、きれいだ}
文脈に依存する類義表現:「景気が落ち込む」~「景気が冷え込む」
大きな単位での類義表現:
「~が大流行している」~「~の感染が広がっている」
言い換え表現
6.2.2 分布類似度
類義語の関係を大規模なコーパスから自動獲得する方法
「文脈の似ている語は類似している」
「共起する語が似ていれば類似している」
よく共起する語=関連語:自己相互情報量(PMI)を尺度
PMI ?, ? = ???
? ?, ?
? ? ? ?
? ? , ? ? :コーパス中でのx、yそれぞれの出現確率
? ?, ? :ある範囲にxとyが共起する確率
xとyが無関係?? ?, ? ~? ? ? ? ?PMI~0
xとyが関係 ?? ?, ? > ? ? ? ? ?PMI > 0
2つの語が同じような関連語?2つの語は類似
関連語の選択、その一致度の計算方法:
x、yに対しPMI > 0 ? 関連語 ? 関連語の集合をX、Yとして
Jaccard係数:
Simpson係数:
Dice係数:
|? ∩ ?|
|? ∪ ?|
|? ∩ ?|
min( ? , ? )
2|? ∩ ?|
? + |?|
「医者」の類義語:関連語「診せる」、「かかる」「宣告される」
?「医師」「ドクター」「主治医」「先生」
問題点:反意語も同じような関連語をもつ?類義語と反意語が
区別しにくい
X
Y
6.3 多義性
6.3.1 多義語:表記が同じで、複数の異なる意味を持つ語
英語: bank: 「銀行」「土手」
interest: 「利子」「興味」
日本語: こうえん:「公園」「公演」「後援」「講演」
「日中」「米」:一般語 vs. 固有名詞
「木構造」:「きこうぞう」データ構造の一種:コンピュータ科学
:「もくこうぞう」木材を用いる構造:建築分野
実際のテキスト中で使用されている語の語義を選択
=語義曖昧性解消(WSD)
1) 最も素朴な方法:国語辞典などの語義(小見出し)の最初の語義を
選ぶ=辞書では最も重要で高頻出の語義が最初に挙げられている
6.3.2 語義曖昧性解消
2) もうひとつの基本的方法:辞書の語義説明文と、解析対象の語の
文脈との重複が最も大きい語義を選択する
bank1: an institution that keeps and lends money
bank2: land along the side of a river or lake
“I have a little money in the bank”という文脈では、
“money”という語がbank1の説明文に含まれているのでbank1を選択
3) 各語の一定数の出現に語義を付与した注釈付与コーパスを用いて
教師有り学習をさせる(コーパスの構築コスト大)
?日本語:岩波国語辞典タグ付きコーパス
?英語:SemCor=WordNetの語義をBrown Corpusの中の約20万自立
語に付与したもの
?Wikipedia:見出し語となっている固有名?専門用語=語義曖昧性解
消のための語義セット&注釈付与コーパスとして利用可
多義の固有名?専門用語
各意味に対応する見出し語=語義セット
見出しページへのリンク=語義の注釈
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習:~80%精度で多義
性解消
6.2.2 分布類似度:自己相互情報量(PMI)
PMI ?, ? = ???
? ?, ?
? ? ? ?
語をベクトル化する必要がなく、なんとなくコードは想像できる
6.3.2 語義曖昧性解消
日本語Wikipediaを3000語の多義見出し語に対する語義注釈付与
コーパスと考えてSVMなどによって教師有り学習:~80%精度で多
義性解消
SVMなどを使用するには、全ての語を同じ長さのベクトル(数値)に
する必要があり、その部分の想像がつかない

More Related Content

放送大学テキスト「自然言語処理」 6章 意味の解析(1)