狠狠撸

狠狠撸Share a Scribd company logo
自然言語処理の活用事例
?オーディエンスの性別推定の仕組み
Developers Night #12?
? 2019 GMO AD Marketing Inc. 2
1. 自然言語処理の要約
2. 広告オーディエンスの性別推定の仕組みの紹介
?
今回の内容 
? 2019 GMO AD Marketing Inc. 3
自然言語処理の要約
?
 
? 2019 GMO AD Marketing Inc. 4
 自然言語処理とは?
 
自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン
ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。?
 ?
NLP
Personal assistant
機械翻訳
検索エンジン
自然言語
? 2019 GMO AD Marketing Inc. 5
自然言語処理の市場規模 ?
...
全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規
模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
? 2019 GMO AD Marketing Inc. 6
自然言語処理の一般的な処理の流れ ?
機械翻訳の例で説明します。?
?
...
NLP日本語 英語
? 2019 GMO AD Marketing Inc. 7
? 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ ?
形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
? 2019 GMO AD Marketing Inc. 8
? 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ ?
形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
? 2019 GMO AD Marketing Inc. 9
数値化手法の一つTF/IDFを紹介する
?
 
? 2019 GMO AD Marketing Inc. 10
 
単語の出現頻度(TF)?
...
単語 単語の出現頻度
一つの一番直感的な考えるのは指定された単語 の文書内で
の出現回数を数字化の指標として使うことです。
よく出現する単語は、その文書の特徴を判別するのに有用!
?
数値化指標?
単語 の文書内での出現回数 ?
文書内単語の総数?
? 2019 GMO AD Marketing Inc. 11
 
単語の出現頻度(TF)?
...
単語 単語の出現頻度
単語の出現頻度だけで数値化する指標にとして使うのは一つ
大きな欠点があります。
数値化指標?
単語 の文書内での出現回数 ?
文書内単語の総数?
? 2019 GMO AD Marketing Inc. 12
 
単語の出現頻度(TF)の欠点?
...
単語 単語の出現頻度
単語の出現頻度のみで scoreが高い単語は助詞になるかもし
れません。
?
は: 300?
が: 288?
です: 100?
…?
数値化指標?
単語 の文書内での出現回数 ?
文書内単語の総数?
? 2019 GMO AD Marketing Inc. 13
 
逆文書頻度(IDF)?
...
単語
逆文書頻度
単語 が出現する文書の数
?
文章の総数?
色々な文書によく出現する単
語」なら低い値を示すもので
す。 ?
LOG( ) + 1 ?
? 2019 GMO AD Marketing Inc. 14
 
数値化する?
...
単語
逆文書頻度
単語の出現
頻度
TF
x IDF
色々な文書によく出現する単
語」なら高い値を示すもので
す。 ?
数値化指標?
X?
単語 が出現する文書の数 ?
文章の総数?
LOG( ) + 1?
単語 の文書内での出現回数 ?
文書内単語の総数?
? 2019 GMO AD Marketing Inc. 15
?
例 
分析対象になる文章 :
[文書A] 博多ラーメンは一番最高 !
[文書B] 札幌ラーメンは最高 !
?
TF(博多) = 1 / 4 = 0.25
TF(札幌) = 1 / 4 = 0.25
TF(ラーメン) = 2 / 4 = 0.5
IDF(博多) = log(2) + 1 = 1.3
IDF(札幌) = log(2) + 1 = 1.3
IDF(ラーメン) = log(2/2) + 1 = 1
[文書A] 博多, ラーメン
[文書B] 札幌, ラーメン
?
形態素解析で名詞だけ抽出 ?
TF/IDFを算出?
? 2019 GMO AD Marketing Inc. 16
オンライン広告業界で
自然言語処理の実用例
?
?
? 2019 GMO AD Marketing Inc. 17
オンライン広告の男女予測問題 ?
男性と女性が広告について好みが違うので、もし Webサイトをみっている
人の性別の情報が分かれば広告の施策を有利に行えます
化粧品の広告
競馬の広告
メディアサイド
メディアサイド
? 2019 GMO AD Marketing Inc. 18
 ?
機械学習問題の処理流れ ?
学習データの集計
機械学習モデルを訓練
機械学習モデルを運用
? 2019 GMO AD Marketing Inc. 19
学習データの集計
?
? 2019 GMO AD Marketing Inc. 20
オンライン広告を表示する際の簡単な流れ ?
? リクエストの情報をLogへ保存する
? 該当するオーディエンスに対する適切
な広告が決まる
ユーザー Media Site( 例えば: NHK News)
AD Network
? アクセス ? 広告リクエスト
? 広告のリンクを送る? 広告を表示する
● この五つのステップは数ミリセカンドで完了する。
● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ
ア、ブログ等)を集めて広告配信ネットワークを作り、それらの
媒体に広告をまとめて配信する仕組みのことです
ミリセカンド
? 2019 GMO AD Marketing Inc. 21
学習データの集計?
? リクエストの情報をLogへ保存する。log
にはmedia先のURL,直前にアクセスした
URL,性別、アクセス時間など情報が含ま
れている
? Logをもとに最適な広告を選ぶ
ユーザー ユーザーの 性 別 の 情 報 を
持っているMedia Site AD network
? アクセス
? 広告リクエスト +
ユーザーの性別
? 広告のリンクを送る? 広告を表示する
? 2019 GMO AD Marketing Inc. 22
機械学習モデルを訓練
&運用
?
? 2019 GMO AD Marketing Inc. 23
オンライン広告業界でNLPの実用例 ?
男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ
ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず
です。
男
女 URL
NLPの処理
数
字
化
し
た
特
徴
?
?
学
習
URL
NLPの処理
数
字
化
し
た
特
徴
?入力
?予測
0.8
0.2
性別の情報 +
アクセスしたURLの履
歴
アクセスしたURLの履
歴
機械学習の
分類モデル
? 2019 GMO AD Marketing Inc. 24
今回紹介した方法において、AkaNe?ReeMoで
82%の正解度が得られました。(100回の予測に82回正解)
? 2019 GMO AD Marketing Inc. 25
以上です?
ご清聴いただき?
ありがとうございました?
? 2019 GMO AD Marketing Inc. 26
?
● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、
https://ja.wikipedia.org/wiki/自然言語処理?
● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44
Discrete Use Cases Across 17 Industries,
https://www.tractica.com/newsroom/press-releases/natural-language-processing-
is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17
-industries/?
?
参考文献?

More Related Content

自然言语処理の活用事例冲オーテ?ィエンスの性别推定の仕组み

  • 2. ? 2019 GMO AD Marketing Inc. 2 1. 自然言語処理の要約 2. 広告オーディエンスの性別推定の仕組みの紹介 ? 今回の内容 
  • 3. ? 2019 GMO AD Marketing Inc. 3 自然言語処理の要約 ?  
  • 4. ? 2019 GMO AD Marketing Inc. 4  自然言語処理とは?   自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。?  ? NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  • 5. ? 2019 GMO AD Marketing Inc. 5 自然言語処理の市場規模 ? ... 全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
  • 6. ? 2019 GMO AD Marketing Inc. 6 自然言語処理の一般的な処理の流れ ? 機械翻訳の例で説明します。? ? ... NLP日本語 英語
  • 7. ? 2019 GMO AD Marketing Inc. 7 ? 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ ? 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 8. ? 2019 GMO AD Marketing Inc. 8 ? 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ ? 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 9. ? 2019 GMO AD Marketing Inc. 9 数値化手法の一つTF/IDFを紹介する ?  
  • 10. ? 2019 GMO AD Marketing Inc. 10   単語の出現頻度(TF)? ... 単語 単語の出現頻度 一つの一番直感的な考えるのは指定された単語 の文書内で の出現回数を数字化の指標として使うことです。 よく出現する単語は、その文書の特徴を判別するのに有用! ? 数値化指標? 単語 の文書内での出現回数 ? 文書内単語の総数?
  • 11. ? 2019 GMO AD Marketing Inc. 11   単語の出現頻度(TF)? ... 単語 単語の出現頻度 単語の出現頻度だけで数値化する指標にとして使うのは一つ 大きな欠点があります。 数値化指標? 単語 の文書内での出現回数 ? 文書内単語の総数?
  • 12. ? 2019 GMO AD Marketing Inc. 12   単語の出現頻度(TF)の欠点? ... 単語 単語の出現頻度 単語の出現頻度のみで scoreが高い単語は助詞になるかもし れません。 ? は: 300? が: 288? です: 100? …? 数値化指標? 単語 の文書内での出現回数 ? 文書内単語の総数?
  • 13. ? 2019 GMO AD Marketing Inc. 13   逆文書頻度(IDF)? ... 単語 逆文書頻度 単語 が出現する文書の数 ? 文章の総数? 色々な文書によく出現する単 語」なら低い値を示すもので す。 ? LOG( ) + 1 ?
  • 14. ? 2019 GMO AD Marketing Inc. 14   数値化する? ... 単語 逆文書頻度 単語の出現 頻度 TF x IDF 色々な文書によく出現する単 語」なら高い値を示すもので す。 ? 数値化指標? X? 単語 が出現する文書の数 ? 文章の総数? LOG( ) + 1? 単語 の文書内での出現回数 ? 文書内単語の総数?
  • 15. ? 2019 GMO AD Marketing Inc. 15 ? 例  分析対象になる文章 : [文書A] 博多ラーメンは一番最高 ! [文書B] 札幌ラーメンは最高 ! ? TF(博多) = 1 / 4 = 0.25 TF(札幌) = 1 / 4 = 0.25 TF(ラーメン) = 2 / 4 = 0.5 IDF(博多) = log(2) + 1 = 1.3 IDF(札幌) = log(2) + 1 = 1.3 IDF(ラーメン) = log(2/2) + 1 = 1 [文書A] 博多, ラーメン [文書B] 札幌, ラーメン ? 形態素解析で名詞だけ抽出 ? TF/IDFを算出?
  • 16. ? 2019 GMO AD Marketing Inc. 16 オンライン広告業界で 自然言語処理の実用例 ? ?
  • 17. ? 2019 GMO AD Marketing Inc. 17 オンライン広告の男女予測問題 ? 男性と女性が広告について好みが違うので、もし Webサイトをみっている 人の性別の情報が分かれば広告の施策を有利に行えます 化粧品の広告 競馬の広告 メディアサイド メディアサイド
  • 18. ? 2019 GMO AD Marketing Inc. 18  ? 機械学習問題の処理流れ ? 学習データの集計 機械学習モデルを訓練 機械学習モデルを運用
  • 19. ? 2019 GMO AD Marketing Inc. 19 学習データの集計 ?
  • 20. ? 2019 GMO AD Marketing Inc. 20 オンライン広告を表示する際の簡単な流れ ? ? リクエストの情報をLogへ保存する ? 該当するオーディエンスに対する適切 な広告が決まる ユーザー Media Site( 例えば: NHK News) AD Network ? アクセス ? 広告リクエスト ? 広告のリンクを送る? 広告を表示する ● この五つのステップは数ミリセカンドで完了する。 ● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ ア、ブログ等)を集めて広告配信ネットワークを作り、それらの 媒体に広告をまとめて配信する仕組みのことです ミリセカンド
  • 21. ? 2019 GMO AD Marketing Inc. 21 学習データの集計? ? リクエストの情報をLogへ保存する。log にはmedia先のURL,直前にアクセスした URL,性別、アクセス時間など情報が含ま れている ? Logをもとに最適な広告を選ぶ ユーザー ユーザーの 性 別 の 情 報 を 持っているMedia Site AD network ? アクセス ? 広告リクエスト + ユーザーの性別 ? 広告のリンクを送る? 広告を表示する
  • 22. ? 2019 GMO AD Marketing Inc. 22 機械学習モデルを訓練 &運用 ?
  • 23. ? 2019 GMO AD Marketing Inc. 23 オンライン広告業界でNLPの実用例 ? 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず です。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? ? 学 習 URL NLPの処理 数 字 化 し た 特 徴 ?入力 ?予測 0.8 0.2 性別の情報 + アクセスしたURLの履 歴 アクセスしたURLの履 歴 機械学習の 分類モデル
  • 24. ? 2019 GMO AD Marketing Inc. 24 今回紹介した方法において、AkaNe?ReeMoで 82%の正解度が得られました。(100回の予測に82回正解)
  • 25. ? 2019 GMO AD Marketing Inc. 25 以上です? ご清聴いただき? ありがとうございました?
  • 26. ? 2019 GMO AD Marketing Inc. 26 ? ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理? ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language-processing- is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17 -industries/? ? 参考文献?