狠狠撸
Submit Search
保険関连文书を対象とした文章校正支援のための変换误り検出
?
0 likes
?
531 views
长冈技术科学大学 自然言语処理研究室
Follow
林 秀治, 山本 和英. 保険関连文书を対象とした文章校正支援のための変换误り検出. 言語処理学会第20回年次大会, pp.618-621 (2014.3)
Read less
Read more
1 of 14
Download now
Download to read offline
More Related Content
保険関连文书を対象とした文章校正支援のための変换误り検出
1.
保険関連文書を対象とした 文章校正支援のための変換誤り検出 長岡技術科学大学 電気系
林 秀治 山本 和英
2.
研究背景?目的 ● 保険関連文書には約款や特約などの書類(基礎書類)
と、基礎書類の内容を消費者向けに編集したパンフ レットなどの書類(派生書類)の2種類がある ● 派生書類を校正する際は、基礎書類から対応する部 分を参照する必要があり、人手で行うには多大なコス トがかかる ● 文章校正支援のため、基礎書類と派生書類の 自動対応付けと、自動誤り検出を行う ● 誤りが存在すると大きな損失を生んでしまうため、 誤りを漏れなく検出することに重点をおく
3.
提案手法 ● 入力文と基礎書類それぞれが持つ内容語を用いた
文の対応付け及び誤り検出の手法を提案 入力文 システムの概略 基礎書類の基礎書類 内容語 入力文の 内容語 対応文の 内容語 検出結果 誤り検出システム 内容語の抽出 内容語の抽出 誤りの検出 対応文の抽出
4.
入力文と基礎書類の対応付け ● 基礎書類をMeCabを使って形態素解析し、1文毎
に内容語を保存 ● 複合名詞に対応するため名詞が連続する場合は それらを連結 ● 入力文からも同様に内容語を抽出 ● 入力文が含む内容語を最も多く含む文を入力文に 対応する文(対応文)として獲得
5.
誤りの検出 ● 入力文が含む内容語のうち対応文に含まれない
内容語を誤りとして検出 入力文:保健証券等に記載の自動車をいいます 内容語:保健証券等、記載、自動車、いい 対応文:保険証券等に記載の自動車をいいます 内容語:保険証券等、記載、自動車、いい 保健証券等に記載の自動車をいいます
6.
評価実験 ● テストセットを入力文、『自動車保険の約款』を基礎
書類として対応付け及び誤り検出を行った ● 対応付けは対応文と原文が一致した場合正解 ● 誤り検出は、検出した誤り語が置換語と一致する か、誤り語と置換語の一部が一致した場合を正解 検出成功例 検出パターン置換語抽出した誤り 完全一致保健保健 誤りが置換語の 一部に一致 支払い支払 置換語が誤りの 一部に一致 不通不通保険約款
7.
テストセットの作成 ● 基礎書類の1文毎に名詞を一つだけ同音異字に置
換し、誤り文を作成する 原文『約款に記載の番号の読み方』から作成される文 約款に記載の番号の読み方 約款に機才の番号の読み方 ??? 約款に鬼才の番号の読み方 約款に記載の番号の読方 ※原文…誤り文を作成するのに使われた基礎書類の文 今回1,825文の『自動車保険の約款』から65,718文を作成 1,825文の誤りがない文と63,893文の誤りを含む文がある
8.
実験結果(対応付け) ● 65,718文中51,056文の対応付けに成功(精度77.7%)
● 対応付けに失敗した14,662文のうち、1,263文は一致 する内容語が一つもなく対応文の取得に失敗 例:原文が『備考』のとき 『備考』から『尾行』に置換 『尾行』を含む文が基礎書類にないため対応文の取得に失敗 ● 誤ったものを対応文として取得した14,563文の失敗 の原因は大きく分けて3つ
9.
対応付けの失敗原因 1.内容語が1つしかない文を置換、
その置換語を含む文が基礎書類に存在 2.正解となる原文を含む、より長い文が存在 3.内容語は同じで、それ以外が異なる文が存在 対応付け失敗の具体例 原文作成された誤り文取得した対応文 1 備考鼻腔14.鼻?副鼻腔の手術 2 用途?車種用途?射手 ※1別表に掲げる 用途?車種をいいます 3 記名被保険者 の配偶者 記名被保健者 の配偶者 ア.記名被保険者の配偶者
10.
対応付けの結果の考察 ● 1.のパターンは見出しである場合が多いため、完全一
致する文がない場合誤りとするなどの対処法が必要 ● 2.のパターンは、含まれる内容語が増えるため置換語 が誤りとして検出されない可能性がある – 内容語の数を考慮していないので、内容語がより少ない物 を選択するなどして対処 ● 3.のパターンは、内容語が同じであるため、誤り検出 をするうえでは問題なし
11.
実験結果(誤り検出) 誤り検出結果 検出成功
検出失敗 278文(0.4%) 65,440文(99.6%) 誤り検出に失敗した 278文の内訳 その他 66文(23.7%) 対応文抽出失敗 107文(38.5%) 置換語が原文に有 105文(37.8%) 誤りがない1,825文は 全て誤りを検出せず
12.
誤り検出結果の考察 ● 対応文の抽出に失敗した107文はすべて、対応付
け失敗の原因の1.と2.のパターン ● 対応付けに成功したが誤りの検出に失敗した105 文は、置換語が原文に含まれている文 例: 原文 :『事業を営む者が預託を受けている物』 入力文:『事業を営む物が預託を受けている物』 置換語の『物』が原文にも含まれている
13.
誤り検出結果の考察 ● その他の66文は、置換語が内容語以外の品詞と
なり、内容語として抽出できず 抽出できなかった語 さん すんで トウ ほう もの ようじ 急 旧 元 小 相 多 打 超 当 内 否 比 非 これらの語は、文によって品詞が変わるので別途に 処理を行うなどの対処が必要
14.
まとめ ● 保険関連文書の校正支援のための誤り検出システ
ムを作成 ● システムの評価として基礎書類の名詞を1つ同音異 字に置き換えたテストセットを作成し検出 ● 基礎書類と派生書類の対応付けは精度77.7% ● 誤り検出の精度は100%、再現率は99.6%
Download