2012 09-06-poster
- 1. 『现代日本语书き言叶均衡コーパス』に対する
時間情報アノテーション
小西 光?浅原 正幸?前川 喜久雄
国立国語研究所 コーパス開発センター
概要: コーパス中の時間表現の正規化
type=“DATE” type=“DATE”
value=“2002-04” value=“2002-05-2J”
mod=“start”
今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始
める。
[出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊
TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与
(白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2)
アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中
2012/9/6 第2回コーパス日本語学WS 1
- 2. 背景―目的
文書中の時間情報解析?時間順序関係推定
テキストからの時系列の情報抽出
? 時系列に配信される文書からの事象構造解析
いつ、事象Aが起きたか?
文書作成日時と事象Aの時間的順序関係は?
事象A と事象Bはどういう時間的順序で発生したか?
? テキストで言及されている時間表現は表層だけでは時間
軸上の1点を指すことができないものが多い
“5月” - 何年かはわからないが、ある年の5月
“来年” - 何年かはわからないが、文書作成日時の翌年
“2時間半後” ― ある事象とある事象の間の時間
“中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現
時間情報を正規化したアノテーションが求められる
2012/9/6 第2回コーパス日本語学WS 2
- 3. 背景―先行研究 TempEval, TempEval-2 などの
評価型会議で多数の解析手法が提案されている
英語の研究動向
英語に関する研究動向
MUC-6 [Grishman+ 1996] 評価型会議 時間情報表現の切り出し
[Setzer 2001] タグ付け基準 時間情報表現の切り出しと正規化
TERN [DARPA TIDES 2004] 評価型会議 時間情報表現の切り出しと正規化
TimeML [Pustejovsky+ 2003b] タグ付け基準 事象間の時間的順序関係
TimeBank [Pustejovsky+ 2003a] コーパス TimeML基準のタグ付きコーパス
Aquaint TimeML Corpus コーパス TimeML基準のタグ付きコーパス
[Boguraev+ 2005] 解析手法 時間情報表現-事象表現間の時間的順序関係
解析
[Mani 2006] 解析手法 二事象表現間の時間的順序関係解析
TempEval [Verhagen+ 2007] 評価型会議 時間情報表現-事象表現間、二事象表現間の
時間的順序関係解析
ISO-TimeML [ISO-24617-1] 標準化 タグ付け基準の国際標準化
TempEval-2 [Verhagen+ 2010] 評価型会議 時間情報の正規化、時間情報表現-事象表現
間、二事象表現間の時間的順序関係解析
英語だけでなく、フランス語、スペイン語、ドイツ語、中国
2012/9/6 語、
第2回コーパス日本語学WS 3
- 4. 背景―先行研究
日本語の研究動向
日本語に関する研究動向
IREX [IREX実行委員会 1999] 評価型会議 時間情報表現の切り出し
拡張固有表現体系 [Sekine+ 2002] タグ付け基準 時間情報表現の切り出し
拡張固有表現体系コーパス コーパス 時間情報表現の切り出し
[橋本+ 2009]
時間情報表現の切り出しにとどまっており、
時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおら
ず、
他の言語と比べて後れを取っている
2012/9/6 第2回コーパス日本語学WS 4
- 5. アノテーション基準―概要
TimeML 互換のアノテーション基準
XMLベースのタグ付け基準
<TIMEX3>タグにさまざまな属性を付与する
@tid, @type, @value, @valueFromSurface, @temporalFunction,
@freq, @quant, @mod
?SENTENCE TYPE="QUASI"??TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20"
VALUEFROMSURFACE="2003-10-20"?二〇〇三年十月二十日?/TIMEX3? ?TIMEX3 TID="T2"
TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"?月 曜 日
?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC_ORIGINAL" /? ?SENTENCE TYPE="QUASI"?
?TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX-
XXT17:30:XX"? 午後五時三十分?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC ORIGINAL" /? ?BLOCKEND
/? ?PARAGRAPH? ?SENTENCE? ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像
に見入っていた。?/SENTENCE? ?SENTENCE? 彼女は伸びをし、腕時計に目をやった。?/SENTENCE?
?SENTENCE??TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"?二
時間半?/TIMEX3? で収穫ゼロ。?/SENTENCE?
タグ付け例 (PB59_00001)
2012/9/6 第2回コーパス日本語学WS 5
- 6. アノテーション基準
@tid, @type
@tid: TIMEX3 の identifier
文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別す
るための ID を機械的に付与する
(例)“t1”, “t2”, …
@type: 時間表現のタイプ (4種類)
@type=“DATE” 日付表現 「一九二九年二月」「前日」
@type=“TIME” 時刻表現 「午前十時ごろ」「昼」「九日
昼」
@type=“DURATION 時間表現 「二時間半」
”
@type=“SET” 頻度集合表現 「毎日」
2012/9/6 第2回コーパス日本語学WS 6
- 7. アノテーション基準
@value, @valueFromSurface, (@temporalFunction)
@value: 正規化された時間情報
文脈情報を用いて、わかる限りの情報を復元して付与する
@valueFromSurface: 表層形からわかる時間情報
文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する
@temporalFunction:
true: @valueFromSurface では特定の時区間を指定できない場合
(underspecified)
false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified)
注) @temporalFunctionがtrueでも、文脈が足りないために
@value が特定の時区間を指定できない場合もある
2012/9/6 第2回コーパス日本語学WS 7
- 8. 日付表现の例 時間表現の例
単位 記号 日付表現例 @value 単位 記号 時間表現例 @value
年月日 XXXX-XX-XX 1980年7月7日 1980-07-07 年 PnY 3年間 P3Y
曜日 XXXX-WXX-X 水曜日 XXXX-WXX-3 月 PnM 2ヶ月 P2M
季節 XXXX-{SP,SU,FA,WI} 冬 XXXX-WI 日 PnD 5日 P1D
四半期 XXXX-QX 第一四半期 XXXX-Q1 時間 PTnH 3時間 PT3H
年度 FYXXXX 1998年度 FY1998 分 PTnM 30分 PT30M
世紀 XXXX 11世紀 10XX 秒 PTnS 9秒80 PT9.80S
紀元前202 週 PnW 1週間 P1W
紀元前 BCXXXX BC0202
年
4000年前 KA4
2億年前 MA200
時刻表現の例 曜日表現の例
単位 記号 時刻表現例 @value 曜日表現例 @value
2006年8月8日午前8時45分 月曜日 XXXX-WXX-1
時刻 XXXX-XX-XXTXX:XX:XX 2006-08-08T08:45:30
30秒 火曜日 XXXX-WXX-2
時刻 (略記) TXX:XX:XX 午前8時45分30秒 T08:45:30 水曜日 XXXX-WXX-3
その他 XXXX-XX-XXTXX 未明 * XXXX-XX-XXTDN 木曜日 XXXX-WXX-4
朝 XXXX-XX-XXTMO 金曜日 XXXX-WXX-5
昼 XXXX-XX-XXTMI 土曜日 XXXX-WXX-6
日中 XXXX-XX-XXTDT 日曜日 XXXX-WXX-7
午後 XXXX-XX-XXTAF 週末 XXXX-WXX-WE
夕方 XXXX-XX-XXTEV
夜 XXXX-XX-XXTNI
深夜 * XXXX-XX-XXTMN
不定な時間表現の例
* は、日本語向けに独自に設定したも
時間表現例 @value の
「今」「現
PRESENT_REF
在」
「近年」「以
PAST_REF
前」
2012/9/6
「今後」「将 第2回コーパス日本語学WS 8
FUTURE_REF
来」
- 9. アノテーション基準
@freq, @quant ー頻度集合表現
頻度集合表現(@type=“SET”) は @value, @freq, @quant
の組み合わせにより正規化する
@freq: 頻度情報の提示
?TIMEX3 type="SET" value="P1W" freq="2X"?週に2回?/TIMEX3?
@quant: 集合情報の提示
?TIMEX3 type="SET" value="P1D" quant="EACH"? 毎日?/TIMEX3?
?TIMEX3 type="SET" value="XXXX-10" quant="EACH"? 毎10月
?/TIMEX3?
?TIMEX3 type="SET" value="P10D" quant="EVERY"? 10日おき
?/TIMEX3?
2012/9/6 第2回コーパス日本語学WS 9
- 10. アノテーション基準
@mod
時間情報表現を修飾するさまざまなモダリティ表現を扱う
値 定義 例
@mod=START 日付時刻表現の初期 「初め」「初頭」
@mod=MID 日付時刻表現の中期 「半ば」「中ごろ」
@mod=END 日付時刻表現の後期 「末」 「暮れ」
@mod=APPROX 近似表現 「ごろ」
@mod=BEFORE 日付時刻表現より前 「前」
@mod=AFTER 日付時刻表現より後 「過ぎ」
@mod=ON_OR_BEFORE 日付時刻表現以前 「以前」
@mod=ON_OR_AFTER 日付時刻表現以後 「以降」「以来」
@mod=EQUAL_OR_LES 時間表現の範囲以下 「以内」
S
@mod=EQUAL_OR_MO 時間表現の範囲以上 「以上」
RE
@mod=LESS_THAN 時間表現の範囲未満 「未満」「近く」
@mod=MORE_THAN 時間表現の範囲超過 「余り」「過ぎ」
2012/9/6 第2回コーパス日本語学WS 10
- 11. タグの分析
@type毎の統計
BCCWJの一部に対するアノテーション
白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A)
→ http://goo.gl/rLukS にアノテーション優先順位あり
ジャンル ファイル数 DATE TIME DURATION SET 合計
OW 17 596 0 191 6 703
(白書) [16] (414) (0) (0) (0)
PB 25 209 28 105 14 356
(書籍) [25] (51) (12) (0) (0)
PN 110 1323 193 553 41 2110
(新聞) [110] (999) (162) (0) (0)
OC 518 341 70 184 37 632
(知恵袋) [250] (95) (19) (0) (0)
PM 23 333 37 131 28 529
(雑誌) [23] (108) (2) (0) (1)
OY 257 632 161 117 22 932
(ブログ) [198] (215) (58) (1) (0)
[]内 時間情報表現を含むファイルの数
()内 文脈により曖昧性解消可能な表現数
2012/9/6 第2回コーパス日本語学WS 11
- 12. タグの分析
頻度集合表現の統計
@freq, @quant の2軸での集計
@freq=nil @freq= n X otherwise
@quant=nil 3 43 2
@quant=EACH 75 2 5
@quant=EVERY 18 0 0
出現回数の多い表現
「毎日」 @quant=“EACH”, @freq=nil 75件
「1日3回」「週2度」 @quant=nil, @freq=“nX” 43件
複雑な表現 @freq に時間が入る
「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M”
2012/9/6 第2回コーパス日本語学WS 12
- 13. タグの分析
@mod の統計
@type DATE TIME DURATION SET
@mod=START 27 11 1 0
@mod=MID 5 0 2 0
@mod=END 72 0 5 1
@mod=APPROX 19 35 95 2
@mod=BEFORE 0 5 - 0
@mod=AFTER 0 6 - 0
@mod=ON OR BEFORE 7 0 - 0
@mod=ON OR AFTER 36 21 - 0
@mod=EQUAL OR LESS - - 16 0
@mod=EQUAL OR MORE - - 29 0
@mod=LESS THAN - - 13 0
@mod=MORE THAN - - 5 0
2012/9/6 第2回コーパス日本語学WS 13
- 15. 今後の予定
時間的順序関係のアノテーション
eventID/timeID TimeML Allen
AFTER after
IAFTER met-by
overlapped-by
ENDS finishes
DURING/IS_INCLUDED during is_included
BEGUN_BY started-by
relatedToTime
or SIMULTANEOUS/IDENTITY equal identity
relatedToEvent BEGINS starts
INCLUDES/DURING_INV contains includes
ENDED_BY finished-by
overlaps
IBEFORE meets
BEFORE before
注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係
例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する”
2012/9/6 第2回コーパス日本語学WS 15
- 16. 今後の予定
テンス?アスペクト情報のアノテーション
? 形態論的な情報
– 「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ
ンでは時間の正規化に寄与しない
– 準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」
「シテシマウ」
? 構文的な情報
– 組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ
ロダ」「シタコトガアル」
– 格(参加者の性格)
? 語彙的な情報
– 動詞
? 派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」
? 派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」
? 範疇性 動作動詞-変化動詞?非限界動詞-限界動詞
– 副詞
? 質的「マダ」「モウ」「スデニ」
? 量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」
「ナンドモ」「タマニ」「トキドキ」
2012/9/6 第2回コーパス日本語学WS 16