狠狠撸
Search
Submit Search
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
?
Download as PPTX, PDF
?
0 likes
?
380 views
Toshikazu Inoue
ビッグデータとデータサイエンスについて、上智大学理工学部同窓会において讲演を行った时の资料です。(2015/10/10)
Read less
Read more
1 of 59
Download now
Download to read offline
More Related Content
20151010 ヒ?ック?テ?ータとテ?ータサイエンス
1.
ビッグデータの活用とデータサイエンス ?ウェブ検索における実例? ユニバーサルナレッジ株式会社 代表取締役 井上俊一 2015/10/10 2015/10/10 ユニバーサルナレッジー禁無断転載
2.
? 1993年 上智大学
理工学部 電気電子工学科卒業 ? 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了 ? 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室 ? 1998-2004年 エキサイト株式会社 CTO ? 2004-2008年 ヤフー株式会社 検索事業部長 ? 2008-2010年 バイドゥ株式会社 代表取締役社長 ? 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役 2015/10/10 ユニバーサルナレッジー禁無断転載 2
3.
? 1993年 上智大学
理工学部 電気電子工学科卒業 ? 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了 ? 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室 ? 1998-2004年 エキサイト株式会社 CTO ? 2004-2008年 ヤフー株式会社 検索事業部長 ? 2008-2010年 バイドゥ株式会社 代表取締役社長 ? 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役 17年間、検索エンジンを作っています。 2015/10/10 ユニバーサルナレッジー禁無断転載 3
4.
ビッグデータ ? 「Big」は相対的 – 絶対値があるわけではない ?
1つの計算機におさまらないものが「Big Data」 2015/10/10 ユニバーサルナレッジー禁無断転載 4
5.
データサイエンス ? データなの? サイエンスなの? ?
企業にはデータサイエンティストがいるが、学 術界にはデータサイエンスの教授はいない? 2015/10/10 ユニバーサルナレッジー禁無断転載 5
6.
データサイエンス ? 計算機科学 ? 数学 ?
統計学 ? 機械学習 ? 特定分野の専門知識 ? コミュニケーションスキル ? データ可視化 データサイエンス 2015/10/10 ユニバーサルナレッジー禁無断転載 6
7.
データの重要性が増している ? データ製品(本日のポイント) – 大規模なフィードバックループ –
行動がデータ製品を変化させ、データ製品が行 動を変化させる。 2015/10/10 ユニバーサルナレッジー禁無断転載 7
8.
2015/10/10 ユニバーサルナレッジー禁無断転載 8
9.
2015/10/10 ユニバーサルナレッジー禁無断転載 9
10.
2015/10/10 ユニバーサルナレッジー禁無断転載 10
11.
2015/10/10 ユニバーサルナレッジー禁無断転載 11
12.
オーガニック 検索 関連検索 ワード ナレッジグラフ
13.
検索連動型広告 (North) 検索連動型広告 (East) 商品リスト広告
14.
地域情報 2015/10/10 ユニバーサルナレッジー禁無断転載 14
15.
地図 2015/10/10 ユニバーサルナレッジー禁無断転載 15
16.
ニュース 2015/10/10 ユニバーサルナレッジー禁無断転載 16
17.
動画 画像
18.
天気 2015/10/10 ユニバーサルナレッジー禁無断転載 18
19.
クエリーサジェスト 2015/10/10 ユニバーサルナレッジー禁無断転載 19
20.
良い検索ってなんだろう? 2015/10/10 ユニバーサルナレッジー禁無断転載 20
21.
Coverage (網羅性) Freshness (即時性) Relevance (関連性) 2015/10/10 ユニバーサルナレッジー禁無断転載 21
22.
“大量の情報からいかに関連性の高 いものを上位に表示するか” 2015/10/10 ユニバーサルナレッジー禁無断転載 22
23.
検索のしくみ 前処理 クロール インデクス作成 実行時 インデクスを引き当てて 並び替える 2015/10/10 ユニバーサルナレッジー禁無断転載 23
24.
検索のしくみ 前処理 クロール インデクス作成 実行時 マッチング ランキング 2015/10/10 ユニバーサルナレッジー禁無断転載 24
26.
? インデクスを引き当てて ? 並び替える =
マッチング = ランキング 検索のしくみ 2015/10/10 ユニバーサルナレッジー禁無断転載 26
27.
ランキング 1. 241 2. 300 3.
116 マッチング
28.
マッチングスコア ? テキストの一致度をスコア化する ? タイトル、説明文、フレーズ、AND、頻度、etc. ?
「ランキング=マッチングスコア」としてしまっ た – Google以前の原始的な検索 – AltaVista、Infoseek、Excite、Lycos 2015/10/10 ユニバーサルナレッジー禁無断転載 28
29.
Page Rank ? Googleのランキング方式 ?
大量のリンクを解析してページの重要性を計 算する。 ? 重要性の高いページを上位に表示する。 ? 非連続的に検索の精度が上がった。 2015/10/10 ユニバーサルナレッジー禁無断転載 29
30.
2015/10/10 ユニバーサルナレッジー禁無断転載 30
31.
作成者の意図を反映する ? 大量のリンクを解析とは? ? ページ作成者の意図を反映させること。 日本で一番大きなインターネットの会社は <a
href=“http://www.yahoo.co.jp/”>ヤフー</a> です。 URL アンカーテキスト 2015/10/10 ユニバーサルナレッジー禁無断転載 31
32.
マッチングスコアは何が悪いのか? ? テキストとの一致度だけではページ作成者の 意図は反映できない。 2015/10/10 ユニバーサルナレッジー禁無断転載
32
33.
利用者の意図を反映する ? 相関性テスト ? バケットテスト 2015/10/10
ユニバーサルナレッジー禁無断転載 33
34.
5 3 4 5: Perfect 4: Excellent 3:
Good 2: Fair 1: Bad 4 3 2 4 ? 教育を受けたエディターが評価 ? DCGで数値化 ? メジャークエリー ? ランダムクエリー 相関性テスト
35.
相関性テスト ? 相関性テストによって検索結果の数値化が可 能になる。 – 例)ver1は3.6だが、ver2は3.8になった。 –
例)Googleは4.2だが、ヤフーは4.1だ。 2015/10/10 ユニバーサルナレッジー禁無断転載 35
36.
バケットテスト ? 相関性評価では本当のユーザーの行動は分 からない。 ? 一部のユーザーに別の検索結果を見せる。 –
例)5%のユーザーに新しいアルゴリズムの検索 結果を見せる。 ? 主な指標に有意差が出るか検定する。 2015/10/10 ユニバーサルナレッジー禁無断転載 36
37.
バケットテスト ? ページビュー ? インプレッション ?
CTR(クリックスルーレート) ? バッドクリック ? アバンダンレート etc. 2015/10/10 ユニバーサルナレッジー禁無断転載 37
38.
ECサイトにおけるデータ活用 ウェブ検索 ? インプレッション ? クリック ECサイト ?
インプレッション ? クリック ? コンバージョン(購買) 2015/10/10 ユニバーサルナレッジー禁無断転載 38
39.
購買者の意図を反映する ? 「買うか買わないか」は非常に大きな決断で ある。 – 購買>クリック ?
大量の購買行動データを利用することにより 検索結果を飛躍的に改善できる。 2015/10/10 ユニバーサルナレッジー禁無断転載 39
40.
EC検索の実際 ? 遅れているEC検索の世界 – テキストマッチが主流 ?
Amazonが優れているのはデータが多いから 2015/10/10 ユニバーサルナレッジー禁無断転載 40
47.
検索結果で売上が変わる 2015/10/10 ユニバーサルナレッジー禁無断転載 47
48.
ECで利用しているデータ ? 全ての導線でログを取る 2015/10/10 ユニバーサルナレッジー禁無断転載
48
54.
データ利用の問題点 ? 実際にはデータがつかない商品が大半 – 人目につかない商品 –
新発売の商品 – コールドスタート問題 ? リアルの購買データも利用する ? 商品を目立たせる工夫が必要 2015/10/10 ユニバーサルナレッジー禁無断転載 54
55.
ユニナレについて ? 月間利用者数:3,400万人 – ヨドバシカメラ –
ベルメゾン – DeNAショッピング+auショッピングモール – GDO – 大手ネットスーパー – その他(書籍、ファッション、チケットなど) ? APIリクエスト数:7億6,700万/月 2015/10/10 ユニバーサルナレッジー禁無断転載 55
56.
Big Dataの領域 ? IT ?
金融 ? 医療 ? 医薬 ? 生物 ? 教育 ? 小売 2015/10/10 ユニバーサルナレッジー禁無断転載 56
57.
Big Dataの種類 ? テキスト ?
ユーザーログ ? 位置情報 ? ネットワーク(つながり) ? センサー ? 画像 2015/10/10 ユニバーサルナレッジー禁無断転載 57
58.
「Data Science Network」の立ち上げ ?
上智大学出身者で企業内および学術界の Data Scienceの実例を共有する。 ? Facebookグループ – Sophia Data Science Network 2015/10/10 ユニバーサルナレッジー禁無断転載 58
59.
http://www.slideshare.net/toshiinoue 2015/10/10 ユニバーサルナレッジー禁無断転載 59
Download