狠狠撸

狠狠撸Share a Scribd company logo
保険関連文書を対象とした 
文章校正支援のための変換誤り検出 
長岡技術科学大学 電気系 
林 秀治  
山本 和英
研究背景?目的 
● 保険関連文書には約款や特約などの書類(基礎書類) 
と、基礎書類の内容を消費者向けに編集したパンフ 
レットなどの書類(派生書類)の2種類がある 
● 派生書類を校正する際は、基礎書類から対応する部 
分を参照する必要があり、人手で行うには多大なコス 
トがかかる 
● 文章校正支援のため、基礎書類と派生書類の   
自動対応付けと、自動誤り検出を行う 
● 誤りが存在すると大きな損失を生んでしまうため、 
誤りを漏れなく検出することに重点をおく
提案手法 
● 入力文と基礎書類それぞれが持つ内容語を用いた 
文の対応付け及び誤り検出の手法を提案 
入力文 
システムの概略 
基礎書類の基礎書類 
内容語 
入力文の 
内容語 
対応文の 
内容語 
検出結果 
誤り検出システム 
内容語の抽出 
内容語の抽出 
誤りの検出 
対応文の抽出
入力文と基礎書類の対応付け 
● 基礎書類をMeCabを使って形態素解析し、1文毎 
に内容語を保存 
● 複合名詞に対応するため名詞が連続する場合は 
それらを連結 
● 入力文からも同様に内容語を抽出 
● 入力文が含む内容語を最も多く含む文を入力文に 
対応する文(対応文)として獲得
誤りの検出 
● 入力文が含む内容語のうち対応文に含まれない 
内容語を誤りとして検出 
入力文:保健証券等に記載の自動車をいいます 
内容語:保健証券等、記載、自動車、いい 
対応文:保険証券等に記載の自動車をいいます 
内容語:保険証券等、記載、自動車、いい 
保健証券等に記載の自動車をいいます
評価実験 
● テストセットを入力文、『自動車保険の約款』を基礎 
書類として対応付け及び誤り検出を行った 
● 対応付けは対応文と原文が一致した場合正解 
● 誤り検出は、検出した誤り語が置換語と一致する 
か、誤り語と置換語の一部が一致した場合を正解 
検出成功例 
検出パターン置換語抽出した誤り 
完全一致保健保健 
誤りが置換語の 
一部に一致 
支払い支払 
置換語が誤りの 
一部に一致 
不通不通保険約款
テストセットの作成 
● 基礎書類の1文毎に名詞を一つだけ同音異字に置 
換し、誤り文を作成する 
原文『約款に記載の番号の読み方』から作成される文 
約款に記載の番号の読み方 
約款に機才の番号の読み方 
??? 
約款に鬼才の番号の読み方 
約款に記載の番号の読方 
※原文…誤り文を作成するのに使われた基礎書類の文 
今回1,825文の『自動車保険の約款』から65,718文を作成 
1,825文の誤りがない文と63,893文の誤りを含む文がある
実験結果(対応付け) 
● 65,718文中51,056文の対応付けに成功(精度77.7%) 
● 対応付けに失敗した14,662文のうち、1,263文は一致 
する内容語が一つもなく対応文の取得に失敗 
例:原文が『備考』のとき 
 『備考』から『尾行』に置換 
 『尾行』を含む文が基礎書類にないため対応文の取得に失敗 
● 誤ったものを対応文として取得した14,563文の失敗 
の原因は大きく分けて3つ
対応付けの失敗原因 
1.内容語が1つしかない文を置換、 
  その置換語を含む文が基礎書類に存在 
2.正解となる原文を含む、より長い文が存在 
3.内容語は同じで、それ以外が異なる文が存在 
対応付け失敗の具体例 
原文作成された誤り文取得した対応文 
1 備考鼻腔14.鼻?副鼻腔の手術 
2 用途?車種用途?射手 
※1別表に掲げる 
用途?車種をいいます 
3 
記名被保険者 
の配偶者 
記名被保健者 
の配偶者 
ア.記名被保険者の配偶者
対応付けの結果の考察 
● 1.のパターンは見出しである場合が多いため、完全一 
致する文がない場合誤りとするなどの対処法が必要 
● 2.のパターンは、含まれる内容語が増えるため置換語 
が誤りとして検出されない可能性がある 
– 内容語の数を考慮していないので、内容語がより少ない物 
を選択するなどして対処 
● 3.のパターンは、内容語が同じであるため、誤り検出 
をするうえでは問題なし
実験結果(誤り検出) 
誤り検出結果 
検出成功 
検出失敗 
278文(0.4%) 
65,440文(99.6%) 
誤り検出に失敗した 
278文の内訳 
その他 
66文(23.7%) 
対応文抽出失敗 
107文(38.5%) 
置換語が原文に有 
105文(37.8%) 
誤りがない1,825文は 
全て誤りを検出せず
誤り検出結果の考察 
● 対応文の抽出に失敗した107文はすべて、対応付 
け失敗の原因の1.と2.のパターン 
● 対応付けに成功したが誤りの検出に失敗した105 
文は、置換語が原文に含まれている文 
例: 
原文  :『事業を営む者が預託を受けている物』 
入力文:『事業を営む物が預託を受けている物』 
 置換語の『物』が原文にも含まれている
誤り検出結果の考察 
● その他の66文は、置換語が内容語以外の品詞と 
なり、内容語として抽出できず 
抽出できなかった語 
さん すんで トウ ほう もの ようじ 急  
旧 元 小 相 多 打 超 当 内 否 比 非 
これらの語は、文によって品詞が変わるので別途に 
処理を行うなどの対処が必要
まとめ 
● 保険関連文書の校正支援のための誤り検出システ 
ムを作成 
● システムの評価として基礎書類の名詞を1つ同音異 
字に置き換えたテストセットを作成し検出 
● 基礎書類と派生書類の対応付けは精度77.7% 
● 誤り検出の精度は100%、再現率は99.6%

More Related Content

保険関连文书を対象とした文章校正支援のための変换误り検出