狠狠撸

COLING読み会2014@小町研
“Morphological Analysis for Japanese
Noisy Text Based on Character-level and
Word-level Normalization”
文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト
に対する形態素解析
※スライド中の図表は全て論文から引用されたもの
NTT Media Intelligence Laboratories
saito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro
首都大学東京情報通信システム学域
小町研究室M1 塘優旗
1 2014/11/6

SNSテキストはとってもノイジー
?Non-standard token （非標準形）
? “パンケーキぉいしーぃ”
?Standard form（標準形）
? “パンケーキおいしい”
?MeCabによる形態素解析の例
? パンケーキ(noun)/ぉいし(unk)/ー(unk)/ぃ(unk)
→OOV (out-of-Vocabulary ) 辞書に存在しない
単語の区切りが明確でない
2 2014/11/6

日本語のSNSテキストの問題点
?日本語には単語間のスペースがない
?二つの非標準形(non-standard token)への派生が存在
? Character-level
“おいしい” → “おいしいいいい”、“おいしぃ”、“おいしー”
文脈情報によって、標準形を計算するために、正規化、単語
分割、POSタギングは同時に解析しなければならない。
? Word-level
”教科書” → ”きょうかしょ”
各単語は正式な文字の書式(ひらがな、漢字、カタカナ)を
持っているが、ノイジーなテキストでは多くの単語が故意的
に異なる文字の書式で書かれることが多い。
3 2014/11/6

日本語の単語正規化における
関連研究
?Sasano et al. (2013)ら
? 人手で単語の派生ルールを生成し適用
SNSにおける派生ルールは膨大で人手では、とてもコスト
がかかる
候補数が増えた際にre-rankingのためのパスのコスト設定
が問題となる
? Sasaki et al. (2013)ら
? 文字レベルの系列ラベリング手法をを適用
one-to-one な文字の変形のみを扱い、単語レベルの文脈は
考慮しない
4 2014/11/6

今回対象とする単語派生の
パターンタイプ例
?(1) ~ (4)：英語のパターンと類似
? character-level で発生するため、character-levelのアライメン
トから学習可能
?(5), (6)：日本語特有のパターン
? word-level で発生するため、character-levelを元にして学習は
効果的でない
5 2014/11/6
55.0%
4.5%
20.1%
2.7%
※残りの17.7 % はなまりや固有の表現、誤植などその他の要因であり、提案手法では
簡単に解決できないため、今回の研究では対象としていない。

提案システムの構成
6 2014/11/6
モデル学習
デコーダー

正規化候補生成、
文字アライメントの例
7 2014/11/6

Character-level のTransformationTable の
作成
?the joint multigram model (Sittichai et al. (2007) )
?EMアルゴリズムを利用してn-bestのパスを生成
d : non-standard token とstandard form の
ペア
q : ペアd における部分文字のアライメン
ト
q : ペアd におけるアライメントqのセット
Kd : d から生成される可能性のある文アラ
イメントのシーケンス
D : d のペアの個数
Q : q のセット
n_q(q) : q 中に出現するq の出現する回数
8 2014/11/6

character-level のラティス生成
?入力がTransformation table(Tt)のキーにマッチした
場合、character-level の正規化候補を追加
例：
Tt : (q, log p(q)) = (“ょぉ, よう” , -8.39) , (“ぉ, お” , -
7.56)
“ちょぉ” → “ちょう”、“ちょお” を追加
9 2014/11/6

Word-level のラティス生成
?以下を元にword-levelのラティスを生成
? 生成されたcharacter-levelのラティス
? 辞書の参照（音声的情報を用いてひらがな、カタカ
ナの置換に対しての正規化候補を追加）
?例:
10 2014/11/6

デコーダー
?デコーダーは最適な系列y^ をL(s)から選択する。
s : 文（センテンス）
L(s) : 候補セット（センテンスs に対して生成されたラティス）
y^ : 最適な系列、（最適なパス）
w ：重みベクトル
f : 素性ベクトル
11 2014/11/6
? デコーダーの重みの学習
? the minimum error rate training (MERT) Machery et al. (2008).

実験データ
? Twitter、Blog からNon-standard token を抽出し、
辞書中のStandard form のアノテーションを人手で行う
? 実験に用いたデータ
? Twitter
? Training : 4208 tweets
? Development : 500 sentences
? Test : 300 tweets , 4635 words
? Blog
? Trainigのみ: 8023 sentences
? IPA dictionary
? 単語レベルのラティス生成、辞書ベースの素性の抽出に利用
13 2014/11/6

学習結果
?5228個の変形パターンを取得
? うち3268個が事前定義をした状態に一致
?取得したパターンは事前提案したルールのほとんどを
カバーし、手で作成するには難しい様々なパターンを
自動で獲得できる
14 2014/11/6

ベースラインと評価尺度
method 正規化候補の生成素性
Traditional × 単語コスト、隣接POSタグのペアのコストのみ
BL1 [Sasano
et al. (2013)]
典型的なrule-based手法
[長音シンボル、小文字]の[挿入、置換]を考慮
Proposed character, word –level 両方の正規化候補を生成全ての素性を利用
BL2 character-level のみの正規化候補を生成
15 2014/11/6
(ひらがな、カタカナの正規化はなし)
全ての素性を利用
BL3 character, word –level 両方の正規化候補を生成全ての文字正規化によって生成される正規化候補
の文字変形コストが同じ
?評価尺度
? 正規化された単語のみを考慮してrecall を評価
? テストデータ中に出現した絵文字を辞書に登録した、
そのためそれらはシステムのパフォーマンスには悪
い作用をしていない

まとめ
? 日本語形態素解析に対して、テキスト正規化のアプローチを導
入
? 2ステップのラティス生成アルゴリズムと離散的な定式化手法が
既存の手法を上回ることを示した。
? フューチャーワーク
? 文字アライメントの学習に対して、教師なしもしくは半教師ありパ
ラレルコーパス抽出を導入することでこのアプローチを発展させる
? モデルの構成と素性を改良し、サーチエラーの数を減少させるため
のデコード手法の実装
? 全てのパフォーマンスの向上のために、そのほかのタイプの未知語
（例えば固有名詞などような）を形態素解析システムに付加するこ
とも考慮
17 2014/11/6

狠狠撸

COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”

Recommended

More Related Content

What's hot (11)

Similar to COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization” (15)

COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”

Editor's Notes