狠狠撸

文字認識は
CNNで
終わるのか？
内田誠一?井手将太（九大）
Dipesh Dangol（Univ. Kaiserslautern）
Convolutional
Neural Network

突然ですが…
北九州市をご存じでしょうか？
? ここです ? 治安で度々お騒がせ
JNN
twitter
現在地

突然ですが…
北九州市をご存じでしょうか？
? 公害でも悪名を馳せた
【1960年代】大腸菌も棲めない
死の海洞海湾
【1960年代】煙に覆われた空、
多数のぜん息患者が現われた
http://www.city.kitakyushu.lg.jp/kankyou/

いち早く環境問題に取り組んだ北九州
http://www.kcta.or.jp/shugaku
1950年代から
取組みの萌芽が
1970～80年代
環境技術の進展
1990年代～
環境問題克服の
ノウハウを世界に
展開

环境问题で世界をリードする北九州へ

早くから問題が顕在化した領域は
（努力次第では）
いち早く問題の解決法を見出し，
さらに他の領域に貢献できる

文字認識研究

文字認識研究
認識率がCNNで飽和？研究終わる？

文字認識研究
パターン認識研究全般
認識率がCNNで飽和？研究終わる？

本発表の内容
? 「大規模データ + CNN」の実験を通し
文字認識研究の危機的(?)現状を確認
? 上を踏まえ，今後の文字認識研究が
進むべき方向を考察

「大規模データ + CNN」の
実験結果
活字手書
フォント

使用したCNN
? ベタベタのデフォルトLeNet
? ReLU + back-propagation, ランダム初期値
32x32画素

バトル１：印刷数字認識
スキャンした活字数字
フォントは2種類程度
512,265サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.99 %
(誤認識は2画像のみ!)
5→6 6→4

バトル２：手書き数字認識
スキャンした手書き数字
不特定多数の筆記者
819,652サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.89 %
(誤認識は92画像のみ)
MNISTの
10倍規模
MNISTだと
99.77%
[Ciresan,CVPR2012]

全ての误认识
ここまできたら頑張って読んでほしかった
「納得」してしまう誤認識（人間の認識限界に近い？）

バトル3：ユニバーサルOCR実験
(活字と手書きの混合認識)
先ほどの2つのデータセットを混合
819,652+52,265サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.92 %
誤認識→115
ユニバーサル化で誤認識に転化→36
ユニバーサル化で改善→15

最後(?)の聖戦：多フォント数字認識
6,721種のフォント
飾り文字的なものも非常に多い
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 96.4 %

聖戦ver.2：多フォント英文字認識
32 x 32画素 26 文字種
6,721種のフォント x 26文字種
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 94%程度

正しく認識した
文字の例

大規模データを全部使った最近傍認識でも
同程度では？と疑ってみる
データ最近傍認識
(ハミング距離) (%)
CNN
(%)
印刷数字 100.00 99.99
手書き数字 99.03 99.89
印刷＋手書き
混合数字
99.45 99.92
多フォント数字 90.00 96.40
誤認識が1/10に
上記の手書きの差がそのまま出た
ちなみにCNNの方が1000倍高速
誤認識が1/3に

こんな感じで，個人的には，文字認識
研究について心が折れそうな状態

お断り：
もちろん今回の結果は限定的！
? 高々「10カテゴリ／切り出し済／大量データ」での話
? 残る疑問：手書き漢字認識は出来るのか？
? 2000～4000カテゴリのfine-grained problem
? 「千」「干」の差異がプーリングに耐えられるのか？
? 残る疑問：自動切り出しは？
? 残る疑問：レイアウト解析は？
文字認識は終わってない！

お断り：
もちろん今回の結果は限定的！
? 高々「10カテゴリ／切り出し済／大量データ」での話
? 残る疑問：手書き漢字認識は出来るのか？
? 2000～4000カテゴリのfine-grained problem
? 「千」「干」の差異がプーリングに耐えられるのか？
? 残る疑問：自動切り出しは？
? 残る疑問：レイアウト解析は？
文字認識は終わってない！
しかし，それでも，
早暁来るかも知れない「Xデー」に対して
心構えは必要では？
世界的には現状で
96-98%ぐらい
(データが決定的に不足)
認識精度向上の
恩恵を直接受ける

認識率100%が達成できたとして
次に何をやるべきか？
それを考えるときが来ている

100%の認識精度があって
初めて展開できる研究
「すべてが読める，全能状態」
Topics Beyond 100% (1)

超詳細(ultra high-grained)物体認識
? 文字の存在意義の一つは「非」曖昧化
wikipedia naturalsobsessed.blogspot.com
“bar-code free” world!

情景理解への応用
? 情景や状態の「非」曖昧化も，文字の重要な仕事
www.theaircanadacentre.com
lifehacker.com
www.thomasmorris.co.uk
www.insidehousing.co.uk

“The total recall”
? 読んだ文字をすべて認識，ライフログ的に記録
? Reading-life log
備忘録／自動日記／パーソナル知識ベース／
シェア／比較／評価／定量化／
推薦／To-Doサポート／
教育／福祉
応用

情景内文字画像処理
? 情景内テキスト強調?拡大
? プライバシ保護のためのテキスト情報隠蔽
www.proidee.co.uk
by
[Inai, et al., ICPR2014]
文字検出

“ドキュメント”の新たな定義へ
Texts on signboard Texts on digital displayTexts on notebook
Texts on object label
すべてシームレスに扱える
Texts on poster / ad Texts on book page

認識率競争とは無縁な
“ブルーオーシャン”へ
「Accuracistよ，さらば」
Topics Beyond 100% (2)
http://daiko-yushutsu.com

デザインと工学の架け橋：
フォント自動デザイン
Campbell, ACM Trans.Graphics, 2014
Font manifold by Gaussian
Process Latent Variable Model
[Uchida, ICDAR, 2015]

文字質感の解明
Dior
Dior Dior

ちょっとした実施例
食品関係には
サンセリフ体が多め
フォント形状特徴
“food”
意味特徴

情景内文字が与える意味的情報の解析
? 我々はどのような言語情報を環境から受け取っているか？
? 情景内単語16,500の意味分布
? Word2vec + k-means + Multidimensional-scaling
[品原, PRMU2015]

人工知能の中心課題である
「文字Aとは何か？」をめぐる旅
Average before registration
Average after registration
[Uchida, ICDAR, 2015]
Hofstadter,
Metamagical
Themas, 1985

まとめ
? 大規模データ＋CNNによる文字認識
? 人間の可読限界にも近い認識率
? 今後は“Beyond 100%”も積極的に考えるべき！
? 100%認識器でできること
? 認識率とは無関係な文字研究
そろそろ
“北九州”の話だけ
ではないかも

乞う，
ご意見?
ご批判！
内田誠一（北九州市出身）

狠狠撸

文字认识は颁狈狈で终わるのか？

More Related Content

文字认识は颁狈狈で终わるのか？