COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on Character-level and Word-level Normalization”
1. COLING読み会2014@小町研
“Morphological Analysis for Japanese
Noisy Text Based on Character-level and
Word-level Normalization”
文字、単語レベルの正規化を基にした、ノイジーな日本語テキスト
に対する形態素解析
※スライド中の図表は全て論文から引用されたもの
NTT Media Intelligence Laboratories
saito.itsumi, sadamitsu.kugatsu, asano.hisako, matsuo.yoshihiro
首都大学東京情報通信システム学域
小町研究室M1 塘優旗
1 2014/11/6
#12:
重み w のチューニングのためのオブジェクト関数を定義。
w は the minimum error rate training (MERT) Machery et al. (2008). によって学習される。
y_ref :学習データ?
the reference word segmentations(参照の単語分かち書き)と the POS tags of the reference sequence y_ref (参照の系列 y_refのPOSタグ)の組みを
システムの出力 との違いとしてエラー関数を定義。
#14:
Twitter Data:
training : 4208 tweets
development : 500 sentences
test : 300 tweets , 4635 words
少なくとも1つ以上のnon-standard token が含まれるようにtest data をランダムに選択。
テスト中の 403単語がnon-standard tokens として正しい綴りで正規化形でPOSタグが付加された。
Blog Data
8023 sentences で構成され全てトレーニングデータとして利用された
Training Data
character transformation table(文字変形テーブル)の抽出に利用
Development data
離散モデルのパラメータ計算に利用
MeCabによって提供されるIPA dictionaryを
単語レベルのラティスの生成
辞書ベースの素性の抽出 のため利用