狠狠撸

狠狠撸Share a Scribd company logo
ビッグデータの活用とデータサイエンス
?ウェブ検索における実例?
ユニバーサルナレッジ株式会社
代表取締役 井上俊一
2015/10/10
2015/10/10 ユニバーサルナレッジー禁無断転載
? 1993年 上智大学 理工学部 電気電子工学科卒業
? 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了
? 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室
? 1998-2004年 エキサイト株式会社 CTO
? 2004-2008年 ヤフー株式会社 検索事業部長
? 2008-2010年 バイドゥ株式会社 代表取締役社長
? 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役
2015/10/10 ユニバーサルナレッジー禁無断転載 2
? 1993年 上智大学 理工学部 電気電子工学科卒業
? 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了
? 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室
? 1998-2004年 エキサイト株式会社 CTO
? 2004-2008年 ヤフー株式会社 検索事業部長
? 2008-2010年 バイドゥ株式会社 代表取締役社長
? 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役
17年間、検索エンジンを作っています。
2015/10/10 ユニバーサルナレッジー禁無断転載 3
ビッグデータ
? 「Big」は相対的
– 絶対値があるわけではない
? 1つの計算機におさまらないものが「Big Data」
2015/10/10 ユニバーサルナレッジー禁無断転載 4
データサイエンス
? データなの? サイエンスなの?
? 企業にはデータサイエンティストがいるが、学
術界にはデータサイエンスの教授はいない?
2015/10/10 ユニバーサルナレッジー禁無断転載 5
データサイエンス
? 計算機科学
? 数学
? 統計学
? 機械学習
? 特定分野の専門知識
? コミュニケーションスキル
? データ可視化
データサイエンス
2015/10/10 ユニバーサルナレッジー禁無断転載 6
データの重要性が増している
? データ製品(本日のポイント)
– 大規模なフィードバックループ
– 行動がデータ製品を変化させ、データ製品が行
動を変化させる。
2015/10/10 ユニバーサルナレッジー禁無断転載 7
2015/10/10 ユニバーサルナレッジー禁無断転載 8
2015/10/10 ユニバーサルナレッジー禁無断転載 9
2015/10/10 ユニバーサルナレッジー禁無断転載 10
2015/10/10 ユニバーサルナレッジー禁無断転載 11
オーガニック
検索
関連検索
ワード
ナレッジグラフ
検索連動型広告
(North)
検索連動型広告
(East)
商品リスト広告
地域情報
2015/10/10 ユニバーサルナレッジー禁無断転載 14
地図
2015/10/10 ユニバーサルナレッジー禁無断転載 15
ニュース
2015/10/10 ユニバーサルナレッジー禁無断転載 16
動画
画像
天気
2015/10/10 ユニバーサルナレッジー禁無断転載 18
クエリーサジェスト
2015/10/10 ユニバーサルナレッジー禁無断転載 19
良い検索ってなんだろう?
2015/10/10 ユニバーサルナレッジー禁無断転載 20
Coverage
(網羅性)
Freshness
(即時性)
Relevance
(関連性)
2015/10/10 ユニバーサルナレッジー禁無断転載 21
“大量の情報からいかに関連性の高
いものを上位に表示するか”
2015/10/10 ユニバーサルナレッジー禁無断転載 22
検索のしくみ
前処理
クロール
インデクス作成
実行時
インデクスを引き当てて
並び替える
2015/10/10 ユニバーサルナレッジー禁無断転載 23
検索のしくみ
前処理
クロール
インデクス作成
実行時
マッチング
ランキング
2015/10/10 ユニバーサルナレッジー禁無断転載 24
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
? インデクスを引き当てて
? 並び替える
= マッチング
= ランキング
検索のしくみ
2015/10/10 ユニバーサルナレッジー禁無断転載 26
ランキング
1. 241
2. 300
3. 116
マッチング
マッチングスコア
? テキストの一致度をスコア化する
? タイトル、説明文、フレーズ、AND、頻度、etc.
? 「ランキング=マッチングスコア」としてしまっ
た
– Google以前の原始的な検索
– AltaVista、Infoseek、Excite、Lycos
2015/10/10 ユニバーサルナレッジー禁無断転載 28
Page Rank
? Googleのランキング方式
? 大量のリンクを解析してページの重要性を計
算する。
? 重要性の高いページを上位に表示する。
? 非連続的に検索の精度が上がった。
2015/10/10 ユニバーサルナレッジー禁無断転載 29
2015/10/10 ユニバーサルナレッジー禁無断転載 30
作成者の意図を反映する
? 大量のリンクを解析とは?
? ページ作成者の意図を反映させること。
日本で一番大きなインターネットの会社は
<a href=“http://www.yahoo.co.jp/”>ヤフー</a>
です。 URL アンカーテキスト
2015/10/10 ユニバーサルナレッジー禁無断転載 31
マッチングスコアは何が悪いのか?
? テキストとの一致度だけではページ作成者の
意図は反映できない。
2015/10/10 ユニバーサルナレッジー禁無断転載 32
利用者の意図を反映する
? 相関性テスト
? バケットテスト
2015/10/10 ユニバーサルナレッジー禁無断転載 33
5
3
4
5: Perfect
4: Excellent
3: Good
2: Fair
1: Bad
4
3
2
4
? 教育を受けたエディターが評価
? DCGで数値化
? メジャークエリー
? ランダムクエリー
相関性テスト
相関性テスト
? 相関性テストによって検索結果の数値化が可
能になる。
– 例)ver1は3.6だが、ver2は3.8になった。
– 例)Googleは4.2だが、ヤフーは4.1だ。
2015/10/10 ユニバーサルナレッジー禁無断転載 35
バケットテスト
? 相関性評価では本当のユーザーの行動は分
からない。
? 一部のユーザーに別の検索結果を見せる。
– 例)5%のユーザーに新しいアルゴリズムの検索
結果を見せる。
? 主な指標に有意差が出るか検定する。
2015/10/10 ユニバーサルナレッジー禁無断転載 36
バケットテスト
? ページビュー
? インプレッション
? CTR(クリックスルーレート)
? バッドクリック
? アバンダンレート
etc.
2015/10/10 ユニバーサルナレッジー禁無断転載 37
ECサイトにおけるデータ活用
ウェブ検索
? インプレッション
? クリック
ECサイト
? インプレッション
? クリック
? コンバージョン(購買)
2015/10/10 ユニバーサルナレッジー禁無断転載 38
購買者の意図を反映する
? 「買うか買わないか」は非常に大きな決断で
ある。
– 購買>クリック
? 大量の購買行動データを利用することにより
検索結果を飛躍的に改善できる。
2015/10/10 ユニバーサルナレッジー禁無断転載 39
EC検索の実際
? 遅れているEC検索の世界
– テキストマッチが主流
? Amazonが優れているのはデータが多いから
2015/10/10 ユニバーサルナレッジー禁無断転載 40
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
検索結果で売上が変わる
2015/10/10 ユニバーサルナレッジー禁無断転載 47
ECで利用しているデータ
? 全ての導線でログを取る
2015/10/10 ユニバーサルナレッジー禁無断転載 48
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
データ利用の問題点
? 実際にはデータがつかない商品が大半
– 人目につかない商品
– 新発売の商品
– コールドスタート問題
? リアルの購買データも利用する
? 商品を目立たせる工夫が必要
2015/10/10 ユニバーサルナレッジー禁無断転載 54
ユニナレについて
? 月間利用者数:3,400万人
– ヨドバシカメラ
– ベルメゾン
– DeNAショッピング+auショッピングモール
– GDO
– 大手ネットスーパー
– その他(書籍、ファッション、チケットなど)
? APIリクエスト数:7億6,700万/月
2015/10/10 ユニバーサルナレッジー禁無断転載 55
Big Dataの領域
? IT
? 金融
? 医療
? 医薬
? 生物
? 教育
? 小売
2015/10/10 ユニバーサルナレッジー禁無断転載 56
Big Dataの種類
? テキスト
? ユーザーログ
? 位置情報
? ネットワーク(つながり)
? センサー
? 画像
2015/10/10 ユニバーサルナレッジー禁無断転載 57
「Data Science Network」の立ち上げ
? 上智大学出身者で企業内および学術界の
Data Scienceの実例を共有する。
? Facebookグループ
– Sophia Data Science Network
2015/10/10 ユニバーサルナレッジー禁無断転載 58
http://www.slideshare.net/toshiinoue
2015/10/10 ユニバーサルナレッジー禁無断転載 59

More Related Content

20151010 ヒ?ック?テ?ータとテ?ータサイエンス