3. 大阪電気通信大学 2012 3
和歌: Japanese Songs
手向くる神の / あればこそ
秋の木の葉の / 幣と散るらめ
because Princess Tatsuta
has a god to whom she o?ers brocades,
the leaves of trees
in autumn will scatter
as an o?ering.
古今和歌集 298 番歌
7. 大阪電気通信大学 2012 7
問題: 処理単位のサイズが決まっていない!
? 単位 → 卯の花 or 卯/の/花 (中野, 1998)
? 正書法 → さびしい/さみしい/寂しい/淋しい (sad)
? 意味 → 卯の花 ∈ plant or 卯の花 ∈ food (unohana = a
deutzia or bean curd refuse)
8. 大阪電気通信大学 2012 8
シソーラスの例: 神 (God)
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 1: Structure of an item of BG database in the case of kami (god):
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) ?eld ID;
(5) exact ID (030 = god);
(6) era-?ag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
21. 大阪電気通信大学 2012 21
(C) 分類番号の形式–3
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta
BG-01-2030-01-101-A -- 姫 -- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
BG-01-5730-02-010-A -- 手 -- te hand
BG-02-1700-01-040-A -- 向ける -- mukeru for
BG-01-2030-01-030-A かみ 神 kami god
BG-08-0061-07-010-A の の no SUB (particle)
BG-02-1200-01-010-C あれ 有り are be
BG-08-0064-26-010-A ば ば ba because (particle)
BG-04-1120-05-150-A -- ば -- ba because (reason)
BG-08-0065-01-010-A こそ こそ koso KP (emphasis)
Figure 8: BG データベース変換の例
22. 大阪電気通信大学 2012 22
poet write OP read expert reader
novice reader
10th century
Field of experience
20th century
Field of experience (expert)
20th century
Field of experience
Figure 9: OP と CT の位置づけの整理(まとめ)
25. 大阪電気通信大学 2012 25
OP の成分
Table 2: CT から OP を引いた結果
OP (valid number of element) = 16
E (ratio of exact match) 12/16 = 0.750
F (ratio of field match) 1/16 = 0.062
G (ratio of group match) 2/16 = 0.125
T (ratio of total match) 15/16 = 0.938
U (ratio of unmatched OP) 1 - T = 0.062
27. 大阪電気通信大学 2012 27
CT の成分
Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H)
は実験値 D から理論値 H を引いて絶対値で示したもの
CT (valid number of element) =41
W (ratio of original word use) 12/41=0.293(E/CT)
A (ratio of annotation) 1-0.293=0.707(1-W)
---breakdown of the annotation---
P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A
P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U
D (ratio of purely added) 0.707-(0.073+0.040)=0.595A-(P1+P2)
H (theoretical value of D) 1-16/41=0.6101-OP/CT
Gap fabs(0.595-0.610)=0.015fabs(D-H)
28. 大阪電気通信大学 2012 28
差分: CT - OP
Exact 12 (75.0%)
Field 1 (6.2%)
Group 2 (12.5%)
Unmatched 1 (6.2%)
W 12 (29.3%)
P1 3 (7.3%)
P2 1 (4.0%)
D 25 (59.5%)
OP : 16 elements CT : 41 elements(298) (298,koma)
Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)