狠狠撸

狠狠撸Share a Scribd company logo
【学生エンジニア限定】GMOアドパートナーズ MEETUP #2
NLPでオンライン広告のユーザーの性別を推定する方法
2019/09/02
? 2019 GMO AD Marketing Inc. 2
劉(リュウ)
- 所属: GMOアドマーケティング
- データマイニングチーム、機械学習エンジニア
- 出身: 中国福建省
- 趣味: 料理(中華)
- 得意なレシピ:
自己紹介
糖醋排骨(スペアリブの甘酢煮) 红烧肉(中国版の角煮)
? 2019 GMO AD Marketing Inc. 3
NLP要約
? 2019 GMO AD Marketing Inc. 4
NLPとは
NLPはNatural language processingの略で、日本語では自然言語処理といいます。
NLPは人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、
人工知能と言語学の一分野でもあります。
NLP
Personal assistant
機械翻訳
検索エンジン
自然言語
? 2019 GMO AD Marketing Inc. 5
NLPの市場規模
引用元: https://www.tractica.com/newsroom/press-releases/natural-language-
processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-
17-industries/
全世界で2018年に5000億円の規模になっており、2025年には5兆円(2018年のオンラン広告の市場規
模は1兆4480億円)の市場規模になる予想(調査会社Tracticaより)
? 2019 GMO AD Marketing Inc. 6
NLPの一般的な処理の流れ
機械翻訳の例で説明します。
...
NLP日本語 英語
? 2019 GMO AD Marketing Inc. 7
私は博多ラーメンが大好きです!
NLPの一般的な処理の流れ
形態素解析
(* 中国語、日本語、タイ語
など単語の分かち書きをし
ない言語に必要な処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコ
ードする
(autoencoder)
日本語を入力
機械学習のモデルでデコー
ドする
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
? 2019 GMO AD Marketing Inc. 8
私は博多ラーメンが大好きです!
NLPの一般的な処理の流れ
形態素解析
(* 中国語、日本語、タイ語
など単語の分かち書きをし
ない言語に必要な処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコ
ードする
(autoencoder)
日本語を入力
機械学習のモデルでデコー
ドする
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
? 2019 GMO AD Marketing Inc. 9
数値化する
単語 単語の出現頻度
数値化にあたっての代表的な手法の一つに、
処理対象の文書群から特定の単語の出現頻度を求め、
その出現頻度を数値化の指標として使う手法があります。
頻繁に出現する単語は、その文書の特徴を判別するのに有用です。
数値化指標
? 2019 GMO AD Marketing Inc. 10
数値化する
単語 単語の出現頻度
単語の出現頻度だけを数値化の指標として使う手法には
大きな欠点が一つあります。
数値化指標
? 2019 GMO AD Marketing Inc. 11
数値化する
単語 単語の出現頻度
単語の出現頻度のみで数値化すると、
scoreが高い単語は助詞になるかもしれません。
は: 300
が: 288
です: 100
…
数値化指標
? 2019 GMO AD Marketing Inc. 12
数値化する
単語
逆文書頻度
単語X
単語Xを含む文章の数
文章の総数
単語の出現
頻度
TF
/IDF
様々な文書に頻繁に出現する
単語なら低い値を示すもので
す。
数値化指標
LOG( )
? 2019 GMO AD Marketing Inc. 13
オンライン広告業界でNLPの実用例
? 2019 GMO AD Marketing Inc. 14
オンライン広告の男女予測問題
男性と女性では広告についての好みが違うので、ウェブサイトを閲覧し
ている人の性別情報が分かれば広告配信がより効率的になります
化粧品の広告
競馬の広告
メディアサイト
メディアサイト
? 2019 GMO AD Marketing Inc. 15
オンライン広告を表示する際の簡単な流れ
③ リクエストの情報をLogへ保存する
④ 該当するオーディエンスに配信する
適切な広告を決定する
ユーザー Media Site( 例えば: NHK News)
AD Network
① アクセス ② 広告リクエスト
⑤ 広告のリンクを送る⑥ 広告を表示する
● この5つのステップは数ミリセカンドで完了する
● AD Networkは複数の広告媒体(Webサイトやソーシャルメ
ディア、ブログ等)を集めて広告配信ネットワークを作り、
それらの媒体に広告をまとめて配信する仕組みのこと
ミリセカンド
? 2019 GMO AD Marketing Inc. 16
オンライン広告を表示する際の簡単な流れ
③ リクエストの情報をLogへ保存する。
logにはmedia先のURL,直前にアクセス
したURL,性別、アクセス時間など情報
が含まれている
④ 該当するオーディエンスに配信する
適切な広告を決定する
ユーザー ユーザーの性別情報を持っ
ているMedia Site AD network
① アクセス
② 広告リクエスト
+ ユーザーの性別
⑤ 広告のリンクを送る⑥ 広告を表示する
? 2019 GMO AD Marketing Inc. 17
オンライン広告業界でNLPの実用例
男性のオーディエンス群と女性のオーディエンス群は日々アクセスしてい
るウェブサイトと時間が異なります。この相違に基づいて性別の情報を推
定できるはずです。
男
女 URL
NLPの処理
数
字
化
し
た
特
徴
?
URL
NLPの処理
数
字
化
し
た
特
徴
②入力
③予測
0.8
0.2
性別の情報 +
アクセスしたURLの
履歴
アクセスしたURLの
履歴
機械学習の
分類モデル
? 2019 GMO AD Marketing Inc. 18
今回紹介した手法を社内のプロダクトに適用した結果、
82%の予測精度が得られました。(100回の予測に対して82回正解)
? 2019 GMO AD Marketing Inc. 19
以上です
ご清聴いただき
ありがとうございました
? 2019 GMO AD Marketing Inc. 20
● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、
https://ja.wikipedia.org/wiki/自然言語処理
● Natural Language Processing Is a Key Engine of AI Market Growth,
Enabling 44 Discrete Use Cases Across 17 Industries,
https://www.tractica.com/newsroom/press-releases/natural-language-
processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-
use-cases-across-17-industries/
参考文献

More Related Content

狈尝笔でオンライン広告のオーディエンスの性别を推定する方法

  • 2. ? 2019 GMO AD Marketing Inc. 2 劉(リュウ) - 所属: GMOアドマーケティング - データマイニングチーム、機械学習エンジニア - 出身: 中国福建省 - 趣味: 料理(中華) - 得意なレシピ: 自己紹介 糖醋排骨(スペアリブの甘酢煮) 红烧肉(中国版の角煮)
  • 3. ? 2019 GMO AD Marketing Inc. 3 NLP要約
  • 4. ? 2019 GMO AD Marketing Inc. 4 NLPとは NLPはNatural language processingの略で、日本語では自然言語処理といいます。 NLPは人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、 人工知能と言語学の一分野でもあります。 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  • 5. ? 2019 GMO AD Marketing Inc. 5 NLPの市場規模 引用元: https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across- 17-industries/ 全世界で2018年に5000億円の規模になっており、2025年には5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想(調査会社Tracticaより)
  • 6. ? 2019 GMO AD Marketing Inc. 6 NLPの一般的な処理の流れ 機械翻訳の例で説明します。 ... NLP日本語 英語
  • 7. ? 2019 GMO AD Marketing Inc. 7 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 8. ? 2019 GMO AD Marketing Inc. 8 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 9. ? 2019 GMO AD Marketing Inc. 9 数値化する 単語 単語の出現頻度 数値化にあたっての代表的な手法の一つに、 処理対象の文書群から特定の単語の出現頻度を求め、 その出現頻度を数値化の指標として使う手法があります。 頻繁に出現する単語は、その文書の特徴を判別するのに有用です。 数値化指標
  • 10. ? 2019 GMO AD Marketing Inc. 10 数値化する 単語 単語の出現頻度 単語の出現頻度だけを数値化の指標として使う手法には 大きな欠点が一つあります。 数値化指標
  • 11. ? 2019 GMO AD Marketing Inc. 11 数値化する 単語 単語の出現頻度 単語の出現頻度のみで数値化すると、 scoreが高い単語は助詞になるかもしれません。 は: 300 が: 288 です: 100 … 数値化指標
  • 12. ? 2019 GMO AD Marketing Inc. 12 数値化する 単語 逆文書頻度 単語X 単語Xを含む文章の数 文章の総数 単語の出現 頻度 TF /IDF 様々な文書に頻繁に出現する 単語なら低い値を示すもので す。 数値化指標 LOG( )
  • 13. ? 2019 GMO AD Marketing Inc. 13 オンライン広告業界でNLPの実用例
  • 14. ? 2019 GMO AD Marketing Inc. 14 オンライン広告の男女予測問題 男性と女性では広告についての好みが違うので、ウェブサイトを閲覧し ている人の性別情報が分かれば広告配信がより効率的になります 化粧品の広告 競馬の広告 メディアサイト メディアサイト
  • 15. ? 2019 GMO AD Marketing Inc. 15 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー Media Site( 例えば: NHK News) AD Network ① アクセス ② 広告リクエスト ⑤ 広告のリンクを送る⑥ 広告を表示する ● この5つのステップは数ミリセカンドで完了する ● AD Networkは複数の広告媒体(Webサイトやソーシャルメ ディア、ブログ等)を集めて広告配信ネットワークを作り、 それらの媒体に広告をまとめて配信する仕組みのこと ミリセカンド
  • 16. ? 2019 GMO AD Marketing Inc. 16 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する。 logにはmedia先のURL,直前にアクセス したURL,性別、アクセス時間など情報 が含まれている ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー ユーザーの性別情報を持っ ているMedia Site AD network ① アクセス ② 広告リクエスト + ユーザーの性別 ⑤ 広告のリンクを送る⑥ 広告を表示する
  • 17. ? 2019 GMO AD Marketing Inc. 17 オンライン広告業界でNLPの実用例 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしてい るウェブサイトと時間が異なります。この相違に基づいて性別の情報を推 定できるはずです。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? URL NLPの処理 数 字 化 し た 特 徴 ②入力 ③予測 0.8 0.2 性別の情報 + アクセスしたURLの 履歴 アクセスしたURLの 履歴 機械学習の 分類モデル
  • 18. ? 2019 GMO AD Marketing Inc. 18 今回紹介した手法を社内のプロダクトに適用した結果、 82%の予測精度が得られました。(100回の予測に対して82回正解)
  • 19. ? 2019 GMO AD Marketing Inc. 19 以上です ご清聴いただき ありがとうございました
  • 20. ? 2019 GMO AD Marketing Inc. 20 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete- use-cases-across-17-industries/ 参考文献