3. 大阪電気通信大学 2012 3
和歌: Japanese Songs
立田姫
手向くる神の / あればこそ
秋の木の葉の / 幣と散るらめ
because Princess Tatsuta
has a god to whom she o?ers brocades,
the leaves of trees
in autumn will scatter
as an o?ering.
兼覧王(?–832)
古今和歌集 298 番歌
7. 大阪電気通信大学 2012 7
問題: 処理単位のサイズが決まっていない!
処理単位のサイズは文脈の意味によってちがう。
? 単位 → 卯の花 or 卯/の/花 (中野, 1998)
? 正書法 → さびしい/さみしい/寂しい/淋しい (sad)
? 意味 → 卯の花 ∈ plant or 卯の花 ∈ food (unohana = a
deutzia or bean curd refuse)
8. 大阪電気通信大学 2012 8
シソーラスの例: 神 (God)
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 1: Structure of an item of BG database in the case of kami (god):
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) ?eld ID;
(5) exact ID (030 = god);
(6) era-?ag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
21. 大阪電気通信大学 2012 21
(C) 分類番号の形式–3
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta
BG-01-2030-01-101-A -- 姫 -- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
BG-01-5730-02-010-A -- 手 -- te hand
BG-02-1700-01-040-A -- 向ける -- mukeru for
BG-01-2030-01-030-A かみ 神 kami god
BG-08-0061-07-010-A の の no SUB (particle)
BG-02-1200-01-010-C あれ 有り are be
BG-08-0064-26-010-A ば ば ba because (particle)
BG-04-1120-05-150-A -- ば -- ba because (reason)
BG-08-0065-01-010-A こそ こそ koso KP (emphasis)
Figure 8: BG データベース変換の例
22. 大阪電気通信大学 2012 22
poet write OP read expert reader
write
CT
read
novice reader
compare
10th century
Field of experience
20th century
Field of experience (expert)
20th century
Field of experience
(novice)
Figure 9: OP と CT の位置づけの整理(まとめ)
25. 大阪電気通信大学 2012 25
OP の成分
Table 2: CT から OP を引いた結果
OP (valid number of element) = 16
E (ratio of exact match) 12/16 = 0.750
F (ratio of field match) 1/16 = 0.062
G (ratio of group match) 2/16 = 0.125
T (ratio of total match) 15/16 = 0.938
U (ratio of unmatched OP) 1 - T = 0.062
27. 大阪電気通信大学 2012 27
CT の成分
Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H)
は実験値 D から理論値 H を引いて絶対値で示したもの
CT (valid number of element) =41
W (ratio of original word use) 12/41=0.293(E/CT)
A (ratio of annotation) 1-0.293=0.707(1-W)
---breakdown of the annotation---
P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A
P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U
D (ratio of purely added) 0.707-(0.073+0.040)=0.595A-(P1+P2)
H (theoretical value of D) 1-16/41=0.6101-OP/CT
Gap fabs(0.595-0.610)=0.015fabs(D-H)
28. 大阪電気通信大学 2012 28
差分: CT - OP
Exact 12 (75.0%)
Field 1 (6.2%)
Group 2 (12.5%)
Unmatched 1 (6.2%)
W 12 (29.3%)
P1 3 (7.3%)
P2 1 (4.0%)
D 25 (59.5%)
OP : 16 elements CT : 41 elements(298) (298,koma)
Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)