狠狠撸

狠狠撸Share a Scribd company logo
『现代日本语书き言叶均衡コーパス』に対する
        時間情報アノテーション
                小西 光?浅原 正幸?前川 喜久雄
               国立国語研究所 コーパス開発センター
概要: コーパス中の時間表現の正規化

       type=“DATE”                                  type=“DATE”
     value=“2002-04”                             value=“2002-05-2J”
       mod=“start”
今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始
める。
                               [出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊

TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与
        (白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2)

           アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中

2012/9/6                     第2回コーパス日本語学WS                                 1
背景―目的
文書中の時間情報解析?時間順序関係推定
テキストからの時系列の情報抽出
? 時系列に配信される文書からの事象構造解析
      いつ、事象Aが起きたか?
      文書作成日時と事象Aの時間的順序関係は?
      事象A と事象Bはどういう時間的順序で発生したか?
? テキストで言及されている時間表現は表層だけでは時間
  軸上の1点を指すことができないものが多い
       “5月” - 何年かはわからないが、ある年の5月
       “来年” - 何年かはわからないが、文書作成日時の翌年
       “2時間半後” ― ある事象とある事象の間の時間
       “中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現

       時間情報を正規化したアノテーションが求められる
2012/9/6            第2回コーパス日本語学WS           2
背景―先行研究                               TempEval, TempEval-2 などの
                                  評価型会議で多数の解析手法が提案されている
英語の研究動向
英語に関する研究動向
MUC-6 [Grishman+ 1996]          評価型会議    時間情報表現の切り出し
[Setzer 2001]                   タグ付け基準   時間情報表現の切り出しと正規化
TERN [DARPA TIDES 2004]         評価型会議    時間情報表現の切り出しと正規化
TimeML [Pustejovsky+ 2003b]     タグ付け基準   事象間の時間的順序関係
TimeBank [Pustejovsky+ 2003a]   コーパス     TimeML基準のタグ付きコーパス
Aquaint TimeML Corpus           コーパス     TimeML基準のタグ付きコーパス
[Boguraev+ 2005]                解析手法     時間情報表現-事象表現間の時間的順序関係
                                         解析
[Mani 2006]                     解析手法     二事象表現間の時間的順序関係解析
TempEval [Verhagen+ 2007]       評価型会議    時間情報表現-事象表現間、二事象表現間の
                                         時間的順序関係解析
ISO-TimeML [ISO-24617-1]        標準化      タグ付け基準の国際標準化
TempEval-2 [Verhagen+ 2010]     評価型会議    時間情報の正規化、時間情報表現-事象表現
                                         間、二事象表現間の時間的順序関係解析
                   英語だけでなく、フランス語、スペイン語、ドイツ語、中国
2012/9/6                          語、
                          第2回コーパス日本語学WS                         3
背景―先行研究
日本語の研究動向
日本語に関する研究動向
IREX [IREX実行委員会 1999]   評価型会議       時間情報表現の切り出し
拡張固有表現体系 [Sekine+ 2002] タグ付け基準      時間情報表現の切り出し
拡張固有表現体系コーパス            コーパス        時間情報表現の切り出し
[橋本+ 2009]


         時間情報表現の切り出しにとどまっており、
  時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおら
                  ず、
           他の言語と比べて後れを取っている




2012/9/6                第2回コーパス日本語学WS             4
アノテーション基準―概要
TimeML 互換のアノテーション基準
 XMLベースのタグ付け基準
      <TIMEX3>タグにさまざまな属性を付与する
      @tid, @type, @value, @valueFromSurface, @temporalFunction,
      @freq, @quant, @mod

?SENTENCE TYPE="QUASI"??TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20"
VALUEFROMSURFACE="2003-10-20"?二〇〇三年十月二十日?/TIMEX3?                     ?TIMEX3 TID="T2"
TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"?月 曜 日
?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC_ORIGINAL" /? ?SENTENCE TYPE="QUASI"?
?TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX-
XXT17:30:XX"? 午後五時三十分?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC ORIGINAL" /? ?BLOCKEND
/? ?PARAGRAPH? ?SENTENCE? ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像
に見入っていた。?/SENTENCE? ?SENTENCE? 彼女は伸びをし、腕時計に目をやった。?/SENTENCE?
?SENTENCE??TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"?二
時間半?/TIMEX3? で収穫ゼロ。?/SENTENCE?
                             タグ付け例 (PB59_00001)

2012/9/6                         第2回コーパス日本語学WS                                      5
アノテーション基準
@tid, @type
@tid: TIMEX3 の identifier
      文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別す
      るための ID を機械的に付与する
      (例)“t1”, “t2”, …


@type: 時間表現のタイプ (4種類)

           @type=“DATE”      日付表現      「一九二九年二月」「前日」
           @type=“TIME”      時刻表現      「午前十時ごろ」「昼」「九日
                                       昼」
           @type=“DURATION   時間表現      「二時間半」
           ”
           @type=“SET”       頻度集合表現    「毎日」

2012/9/6                     第2回コーパス日本語学WS              6
アノテーション基準
@value, @valueFromSurface, (@temporalFunction)
@value: 正規化された時間情報
      文脈情報を用いて、わかる限りの情報を復元して付与する
@valueFromSurface: 表層形からわかる時間情報
      文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する


@temporalFunction:
      true: @valueFromSurface では特定の時区間を指定できない場合
      (underspecified)
      false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified)


注)         @temporalFunctionがtrueでも、文脈が足りないために
           @value が特定の時区間を指定できない場合もある

2012/9/6                  第2回コーパス日本語学WS                       7
日付表现の例                                                      時間表現の例
単位        記号                   日付表現例       @value          単位       記号     時間表現例   @value
年月日       XXXX-XX-XX           1980年7月7日   1980-07-07      年        PnY    3年間     P3Y
曜日        XXXX-WXX-X           水曜日         XXXX-WXX-3      月        PnM    2ヶ月     P2M
季節        XXXX-{SP,SU,FA,WI}   冬           XXXX-WI         日        PnD    5日      P1D
四半期       XXXX-QX              第一四半期       XXXX-Q1         時間       PTnH   3時間     PT3H
年度        FYXXXX               1998年度      FY1998          分        PTnM   30分     PT30M
世紀        XXXX                 11世紀        10XX            秒        PTnS   9秒80    PT9.80S
                               紀元前202                      週        PnW    1週間     P1W
紀元前       BCXXXX                           BC0202
                               年
                               4000年前      KA4
                               2億年前        MA200

時刻表現の例                                                                               曜日表現の例
単位          記号                    時刻表現例                    @value                    曜日表現例   @value
                                  2006年8月8日午前8時45分                                   月曜日     XXXX-WXX-1
時刻          XXXX-XX-XXTXX:XX:XX                            2006-08-08T08:45:30
                                  30秒                                                火曜日     XXXX-WXX-2
時刻 (略記)     TXX:XX:XX             午前8時45分30秒               T08:45:30                 水曜日     XXXX-WXX-3
その他         XXXX-XX-XXTXX         未明 *                     XXXX-XX-XXTDN             木曜日     XXXX-WXX-4
                                  朝                        XXXX-XX-XXTMO             金曜日     XXXX-WXX-5
                                  昼                        XXXX-XX-XXTMI             土曜日     XXXX-WXX-6
                                  日中                       XXXX-XX-XXTDT             日曜日     XXXX-WXX-7
                                  午後                       XXXX-XX-XXTAF             週末      XXXX-WXX-WE
                                  夕方                       XXXX-XX-XXTEV
                                  夜                        XXXX-XX-XXTNI
                                  深夜 *                     XXXX-XX-XXTMN
不定な時間表現の例
                                                        * は、日本語向けに独自に設定したも
時間表現例          @value                                            の
「今」「現
               PRESENT_REF
在」
「近年」「以
               PAST_REF
前」
 2012/9/6
「今後」「将                                        第2回コーパス日本語学WS                                         8
               FUTURE_REF
来」
アノテーション基準
@freq, @quant ー頻度集合表現
頻度集合表現(@type=“SET”) は @value, @freq, @quant
の組み合わせにより正規化する

@freq: 頻度情報の提示
      ?TIMEX3 type="SET" value="P1W" freq="2X"?週に2回?/TIMEX3?


@quant: 集合情報の提示
      ?TIMEX3 type="SET" value="P1D" quant="EACH"? 毎日?/TIMEX3?
      ?TIMEX3 type="SET" value="XXXX-10" quant="EACH"? 毎10月
      ?/TIMEX3?
      ?TIMEX3 type="SET" value="P10D" quant="EVERY"? 10日おき
      ?/TIMEX3?

2012/9/6                    第2回コーパス日本語学WS                        9
アノテーション基準
@mod
時間情報表現を修飾するさまざまなモダリティ表現を扱う
  値                       定義               例
  @mod=START          日付時刻表現の初期   「初め」「初頭」
  @mod=MID            日付時刻表現の中期   「半ば」「中ごろ」
  @mod=END            日付時刻表現の後期   「末」 「暮れ」
  @mod=APPROX         近似表現        「ごろ」
  @mod=BEFORE         日付時刻表現より前   「前」
  @mod=AFTER          日付時刻表現より後   「過ぎ」
  @mod=ON_OR_BEFORE   日付時刻表現以前    「以前」
  @mod=ON_OR_AFTER    日付時刻表現以後    「以降」「以来」
  @mod=EQUAL_OR_LES   時間表現の範囲以下 「以内」
  S
  @mod=EQUAL_OR_MO    時間表現の範囲以上 「以上」
  RE
  @mod=LESS_THAN      時間表現の範囲未満 「未満」「近く」
  @mod=MORE_THAN      時間表現の範囲超過 「余り」「過ぎ」

2012/9/6                 第2回コーパス日本語学WS         10
タグの分析
@type毎の統計
BCCWJの一部に対するアノテーション
     白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A)
     → http://goo.gl/rLukS にアノテーション優先順位あり
     ジャンル ファイル数       DATE    TIME DURATION     SET    合計
     OW         17     596       0    191        6     703
    (白書)       [16]   (414)     (0)   (0)       (0)
     PB         25     209      28    105       14     356
    (書籍)       [25]    (51)    (12)   (0)       (0)
     PN        110    1323     193    553       41     2110
    (新聞)      [110]   (999)   (162)   (0)       (0)
     OC        518     341      70    184       37     632
    (知恵袋)     [250]    (95)    (19)   (0)       (0)
     PM         23     333      37    131       28     529
    (雑誌)       [23]   (108)     (2)   (0)       (1)
     OY        257     632     161    117       22     932
    (ブログ)     [198]   (215)    (58)   (1)       (0)

                                            []内 時間情報表現を含むファイルの数
                                            ()内 文脈により曖昧性解消可能な表現数
2012/9/6                  第2回コーパス日本語学WS                       11
タグの分析
頻度集合表現の統計
@freq, @quant の2軸での集計
                 @freq=nil              @freq= n X           otherwise
@quant=nil                   3                    43                     2
@quant=EACH                  75                   2                      5
@quant=EVERY                 18                   0                      0

出現回数の多い表現
     「毎日」        @quant=“EACH”, @freq=nil              75件
     「1日3回」「週2度」 @quant=nil, @freq=“nX”                43件


複雑な表現                                                        @freq に時間が入る
     「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M”



2012/9/6                          第2回コーパス日本語学WS                              12
タグの分析
@mod の統計
@type                DATE          TIME     DURATION   SET

@mod=START           27            11          1       0
@mod=MID              5             0          2       0
@mod=END             72             0          5       1
@mod=APPROX          19            35         95       2
@mod=BEFORE           0             5          -       0
@mod=AFTER            0             6          -       0
@mod=ON OR BEFORE     7             0          -       0
@mod=ON OR AFTER     36            21          -       0
@mod=EQUAL OR LESS    -             -         16       0
@mod=EQUAL OR MORE    -             -         29       0
@mod=LESS THAN        -             -         13       0
@mod=MORE THAN        -             -          5       0

2012/9/6                    第2回コーパス日本語学WS                    13
まとめ
BCCWJに対する時間情報アノテーション
ジャンル横断的な日本語時間情報アノテーション
     –     ジャンルにより時間情報表現の分布が異なる
     –     多くの時間情報表現が表層情報のみからは正規化できない
     –     頻度集合表現の正規化手法
     –     多様なモダリティ表現


スタンドオフ形式で配布中
     https://github.com/masayu-a/BCCWJ-Timebank




2012/9/6                      第2回コーパス日本語学WS       14
今後の予定
 時間的順序関係のアノテーション
                   eventID/timeID      TimeML                Allen


                                     AFTER                   after
                                     IAFTER                  met-by
                                                             overlapped-by
                                     ENDS                    finishes
                                     DURING/IS_INCLUDED      during        is_included
                                     BEGUN_BY                started-by
  relatedToTime
  or                                 SIMULTANEOUS/IDENTITY   equal         identity
  relatedToEvent                     BEGINS                  starts
                                     INCLUDES/DURING_INV     contains      includes
                                     ENDED_BY                finished-by
                                                             overlaps
                                     IBEFORE                 meets
                                     BEFORE                  before



注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係
例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する”
 2012/9/6                    第2回コーパス日本語学WS                                            15
今後の予定
テンス?アスペクト情報のアノテーション
? 形態論的な情報
     –     「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ
           ンでは時間の正規化に寄与しない
     –     準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」
           「シテシマウ」
? 構文的な情報
     –     組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ
           ロダ」「シタコトガアル」
     –     格(参加者の性格)
? 語彙的な情報
     –     動詞
           ?   派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」
           ?   派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」
           ?   範疇性 動作動詞-変化動詞?非限界動詞-限界動詞
     –     副詞
           ?   質的「マダ」「モウ」「スデニ」
           ?   量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」
               「ナンドモ」「タマニ」「トキドキ」



2012/9/6                   第2回コーパス日本語学WS                   16

More Related Content

2012 09-06-poster

  • 1. 『现代日本语书き言叶均衡コーパス』に対する 時間情報アノテーション 小西 光?浅原 正幸?前川 喜久雄 国立国語研究所 コーパス開発センター 概要: コーパス中の時間表現の正規化 type=“DATE” type=“DATE” value=“2002-04” value=“2002-05-2J” mod=“start” 今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始 める。 [出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊 TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与 (白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2) アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中 2012/9/6 第2回コーパス日本語学WS 1
  • 2. 背景―目的 文書中の時間情報解析?時間順序関係推定 テキストからの時系列の情報抽出 ? 時系列に配信される文書からの事象構造解析 いつ、事象Aが起きたか? 文書作成日時と事象Aの時間的順序関係は? 事象A と事象Bはどういう時間的順序で発生したか? ? テキストで言及されている時間表現は表層だけでは時間 軸上の1点を指すことができないものが多い “5月” - 何年かはわからないが、ある年の5月 “来年” - 何年かはわからないが、文書作成日時の翌年 “2時間半後” ― ある事象とある事象の間の時間 “中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現 時間情報を正規化したアノテーションが求められる 2012/9/6 第2回コーパス日本語学WS 2
  • 3. 背景―先行研究 TempEval, TempEval-2 などの 評価型会議で多数の解析手法が提案されている 英語の研究動向 英語に関する研究動向 MUC-6 [Grishman+ 1996] 評価型会議 時間情報表現の切り出し [Setzer 2001] タグ付け基準 時間情報表現の切り出しと正規化 TERN [DARPA TIDES 2004] 評価型会議 時間情報表現の切り出しと正規化 TimeML [Pustejovsky+ 2003b] タグ付け基準 事象間の時間的順序関係 TimeBank [Pustejovsky+ 2003a] コーパス TimeML基準のタグ付きコーパス Aquaint TimeML Corpus コーパス TimeML基準のタグ付きコーパス [Boguraev+ 2005] 解析手法 時間情報表現-事象表現間の時間的順序関係 解析 [Mani 2006] 解析手法 二事象表現間の時間的順序関係解析 TempEval [Verhagen+ 2007] 評価型会議 時間情報表現-事象表現間、二事象表現間の 時間的順序関係解析 ISO-TimeML [ISO-24617-1] 標準化 タグ付け基準の国際標準化 TempEval-2 [Verhagen+ 2010] 評価型会議 時間情報の正規化、時間情報表現-事象表現 間、二事象表現間の時間的順序関係解析 英語だけでなく、フランス語、スペイン語、ドイツ語、中国 2012/9/6 語、 第2回コーパス日本語学WS 3
  • 4. 背景―先行研究 日本語の研究動向 日本語に関する研究動向 IREX [IREX実行委員会 1999] 評価型会議 時間情報表現の切り出し 拡張固有表現体系 [Sekine+ 2002] タグ付け基準 時間情報表現の切り出し 拡張固有表現体系コーパス コーパス 時間情報表現の切り出し [橋本+ 2009] 時間情報表現の切り出しにとどまっており、 時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおら ず、 他の言語と比べて後れを取っている 2012/9/6 第2回コーパス日本語学WS 4
  • 5. アノテーション基準―概要 TimeML 互換のアノテーション基準 XMLベースのタグ付け基準 <TIMEX3>タグにさまざまな属性を付与する @tid, @type, @value, @valueFromSurface, @temporalFunction, @freq, @quant, @mod ?SENTENCE TYPE="QUASI"??TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20" VALUEFROMSURFACE="2003-10-20"?二〇〇三年十月二十日?/TIMEX3? ?TIMEX3 TID="T2" TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"?月 曜 日 ?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC_ORIGINAL" /? ?SENTENCE TYPE="QUASI"? ?TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX- XXT17:30:XX"? 午後五時三十分?/TIMEX3??/SENTENCE? ?BR TYPE="AUTOMATIC ORIGINAL" /? ?BLOCKEND /? ?PARAGRAPH? ?SENTENCE? ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像 に見入っていた。?/SENTENCE? ?SENTENCE? 彼女は伸びをし、腕時計に目をやった。?/SENTENCE? ?SENTENCE??TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"?二 時間半?/TIMEX3? で収穫ゼロ。?/SENTENCE? タグ付け例 (PB59_00001) 2012/9/6 第2回コーパス日本語学WS 5
  • 6. アノテーション基準 @tid, @type @tid: TIMEX3 の identifier 文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別す るための ID を機械的に付与する (例)“t1”, “t2”, … @type: 時間表現のタイプ (4種類) @type=“DATE” 日付表現 「一九二九年二月」「前日」 @type=“TIME” 時刻表現 「午前十時ごろ」「昼」「九日 昼」 @type=“DURATION 時間表現 「二時間半」 ” @type=“SET” 頻度集合表現 「毎日」 2012/9/6 第2回コーパス日本語学WS 6
  • 7. アノテーション基準 @value, @valueFromSurface, (@temporalFunction) @value: 正規化された時間情報 文脈情報を用いて、わかる限りの情報を復元して付与する @valueFromSurface: 表層形からわかる時間情報 文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する @temporalFunction: true: @valueFromSurface では特定の時区間を指定できない場合 (underspecified) false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified) 注) @temporalFunctionがtrueでも、文脈が足りないために @value が特定の時区間を指定できない場合もある 2012/9/6 第2回コーパス日本語学WS 7
  • 8. 日付表现の例 時間表現の例 単位 記号 日付表現例 @value 単位 記号 時間表現例 @value 年月日 XXXX-XX-XX 1980年7月7日 1980-07-07 年 PnY 3年間 P3Y 曜日 XXXX-WXX-X 水曜日 XXXX-WXX-3 月 PnM 2ヶ月 P2M 季節 XXXX-{SP,SU,FA,WI} 冬 XXXX-WI 日 PnD 5日 P1D 四半期 XXXX-QX 第一四半期 XXXX-Q1 時間 PTnH 3時間 PT3H 年度 FYXXXX 1998年度 FY1998 分 PTnM 30分 PT30M 世紀 XXXX 11世紀 10XX 秒 PTnS 9秒80 PT9.80S 紀元前202 週 PnW 1週間 P1W 紀元前 BCXXXX BC0202 年 4000年前 KA4 2億年前 MA200 時刻表現の例 曜日表現の例 単位 記号 時刻表現例 @value 曜日表現例 @value 2006年8月8日午前8時45分 月曜日 XXXX-WXX-1 時刻 XXXX-XX-XXTXX:XX:XX 2006-08-08T08:45:30 30秒 火曜日 XXXX-WXX-2 時刻 (略記) TXX:XX:XX 午前8時45分30秒 T08:45:30 水曜日 XXXX-WXX-3 その他 XXXX-XX-XXTXX 未明 * XXXX-XX-XXTDN 木曜日 XXXX-WXX-4 朝 XXXX-XX-XXTMO 金曜日 XXXX-WXX-5 昼 XXXX-XX-XXTMI 土曜日 XXXX-WXX-6 日中 XXXX-XX-XXTDT 日曜日 XXXX-WXX-7 午後 XXXX-XX-XXTAF 週末 XXXX-WXX-WE 夕方 XXXX-XX-XXTEV 夜 XXXX-XX-XXTNI 深夜 * XXXX-XX-XXTMN 不定な時間表現の例 * は、日本語向けに独自に設定したも 時間表現例 @value の 「今」「現 PRESENT_REF 在」 「近年」「以 PAST_REF 前」 2012/9/6 「今後」「将 第2回コーパス日本語学WS 8 FUTURE_REF 来」
  • 9. アノテーション基準 @freq, @quant ー頻度集合表現 頻度集合表現(@type=“SET”) は @value, @freq, @quant の組み合わせにより正規化する @freq: 頻度情報の提示 ?TIMEX3 type="SET" value="P1W" freq="2X"?週に2回?/TIMEX3? @quant: 集合情報の提示 ?TIMEX3 type="SET" value="P1D" quant="EACH"? 毎日?/TIMEX3? ?TIMEX3 type="SET" value="XXXX-10" quant="EACH"? 毎10月 ?/TIMEX3? ?TIMEX3 type="SET" value="P10D" quant="EVERY"? 10日おき ?/TIMEX3? 2012/9/6 第2回コーパス日本語学WS 9
  • 10. アノテーション基準 @mod 時間情報表現を修飾するさまざまなモダリティ表現を扱う 値 定義 例 @mod=START 日付時刻表現の初期 「初め」「初頭」 @mod=MID 日付時刻表現の中期 「半ば」「中ごろ」 @mod=END 日付時刻表現の後期 「末」 「暮れ」 @mod=APPROX 近似表現 「ごろ」 @mod=BEFORE 日付時刻表現より前 「前」 @mod=AFTER 日付時刻表現より後 「過ぎ」 @mod=ON_OR_BEFORE 日付時刻表現以前 「以前」 @mod=ON_OR_AFTER 日付時刻表現以後 「以降」「以来」 @mod=EQUAL_OR_LES 時間表現の範囲以下 「以内」 S @mod=EQUAL_OR_MO 時間表現の範囲以上 「以上」 RE @mod=LESS_THAN 時間表現の範囲未満 「未満」「近く」 @mod=MORE_THAN 時間表現の範囲超過 「余り」「過ぎ」 2012/9/6 第2回コーパス日本語学WS 10
  • 11. タグの分析 @type毎の統計 BCCWJの一部に対するアノテーション 白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A) → http://goo.gl/rLukS にアノテーション優先順位あり ジャンル ファイル数 DATE TIME DURATION SET 合計 OW 17 596 0 191 6 703 (白書) [16] (414) (0) (0) (0) PB 25 209 28 105 14 356 (書籍) [25] (51) (12) (0) (0) PN 110 1323 193 553 41 2110 (新聞) [110] (999) (162) (0) (0) OC 518 341 70 184 37 632 (知恵袋) [250] (95) (19) (0) (0) PM 23 333 37 131 28 529 (雑誌) [23] (108) (2) (0) (1) OY 257 632 161 117 22 932 (ブログ) [198] (215) (58) (1) (0) []内 時間情報表現を含むファイルの数 ()内 文脈により曖昧性解消可能な表現数 2012/9/6 第2回コーパス日本語学WS 11
  • 12. タグの分析 頻度集合表現の統計 @freq, @quant の2軸での集計 @freq=nil @freq= n X otherwise @quant=nil 3 43 2 @quant=EACH 75 2 5 @quant=EVERY 18 0 0 出現回数の多い表現 「毎日」 @quant=“EACH”, @freq=nil 75件 「1日3回」「週2度」 @quant=nil, @freq=“nX” 43件 複雑な表現 @freq に時間が入る 「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M” 2012/9/6 第2回コーパス日本語学WS 12
  • 13. タグの分析 @mod の統計 @type DATE TIME DURATION SET @mod=START 27 11 1 0 @mod=MID 5 0 2 0 @mod=END 72 0 5 1 @mod=APPROX 19 35 95 2 @mod=BEFORE 0 5 - 0 @mod=AFTER 0 6 - 0 @mod=ON OR BEFORE 7 0 - 0 @mod=ON OR AFTER 36 21 - 0 @mod=EQUAL OR LESS - - 16 0 @mod=EQUAL OR MORE - - 29 0 @mod=LESS THAN - - 13 0 @mod=MORE THAN - - 5 0 2012/9/6 第2回コーパス日本語学WS 13
  • 14. まとめ BCCWJに対する時間情報アノテーション ジャンル横断的な日本語時間情報アノテーション – ジャンルにより時間情報表現の分布が異なる – 多くの時間情報表現が表層情報のみからは正規化できない – 頻度集合表現の正規化手法 – 多様なモダリティ表現 スタンドオフ形式で配布中 https://github.com/masayu-a/BCCWJ-Timebank 2012/9/6 第2回コーパス日本語学WS 14
  • 15. 今後の予定 時間的順序関係のアノテーション eventID/timeID TimeML Allen AFTER after IAFTER met-by overlapped-by ENDS finishes DURING/IS_INCLUDED during is_included BEGUN_BY started-by relatedToTime or SIMULTANEOUS/IDENTITY equal identity relatedToEvent BEGINS starts INCLUDES/DURING_INV contains includes ENDED_BY finished-by overlaps IBEFORE meets BEFORE before 注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係 例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する” 2012/9/6 第2回コーパス日本語学WS 15
  • 16. 今後の予定 テンス?アスペクト情報のアノテーション ? 形態論的な情報 – 「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ ンでは時間の正規化に寄与しない – 準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」 「シテシマウ」 ? 構文的な情報 – 組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ ロダ」「シタコトガアル」 – 格(参加者の性格) ? 語彙的な情報 – 動詞 ? 派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」 ? 派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」 ? 範疇性 動作動詞-変化動詞?非限界動詞-限界動詞 – 副詞 ? 質的「マダ」「モウ」「スデニ」 ? 量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」 「ナンドモ」「タマニ」「トキドキ」 2012/9/6 第2回コーパス日本語学WS 16