狠狠撸

狠狠撸Share a Scribd company logo
第16回図書館総合展 
日本電気株式会社主催フォーラム 
「貸出し履歴データ活用を考える」 
ビッグデータが検索の利便性を決める 
2014.11.07 
ユニバーサルナレッジ株式会社 
代表取締役井上俊一
経歴 
? エキサイト(1998-2004):CTO 
? ヤフー(2004-2008):検索事業部長 
? バイドゥ(2008-2010):代表取締役社長 
? ユニバーサルナレッジ(2011-現在):代表取締役 
? 1998年から現在まで16年間、検索の開発に携わっています。 
? 「検索がECサイトの売上を決める」というコンセプトの元に大 
規模なECサイトに検索テクノロジーを提供しています。 
2014.11.07 ユニバーサルナレッジー禁無断転載2
1分で分かる検索のしくみ 
? 良い検索って何だろう? 
2014.11.07 ユニバーサルナレッジー禁無断転載3
1分で分かる検索のしくみ 
? Relevance, Freshness, Coverage 
Relevance 
Freshness 
Coverage 
2014.11.07 ユニバーサルナレッジー禁無断転載4
1分で分かる検索のしくみ 
? マッチングとランキング 
– マッチング 
? ユーザーの入力したクエリーを 
含む商品?書籍を選ぶこと 
– ランキング 
? 選んだ商品?書籍を並べ替える 
こと 
マッチング 
ランキング 
2014.11.07 ユニバーサルナレッジー禁無断転載5
1分で分かる検索のしくみ 
? テキストマッチだと何が悪い 
のか 
– ランキングにマッチングスコア 
を用いる 
– マッチングスコアはお客様の 
行動と無関係 
– テキストが変わったときにスコ 
アが変わる 
– ランキングを操作したい時に 
テキストを編集してしまう 
マッチング 
マッチングスコア 
2014.11.07 ユニバーサルナレッジー禁無断転載6
1分で分かる検索のしくみ 
? ユニナレのランキングはここ 
が違う 
– ランキングはお客様の行動で 
決まる 
– 商品が変わらなくてもランキン 
グは毎日変わる 
– 季節性、人気が自動的に反映 
される 
マッチング 
ランキング 
= 
お客様の行動 
2014.11.07 ユニバーサルナレッジー禁無断転載7
A社:掃除機 
2014.11.07 ユニバーサルナレッジー禁無断転載8
B社:掃除機 
2014.11.07 ユニバーサルナレッジー禁無断転載9
C社:掃除機 
2014.11.07 ユニバーサルナレッジー禁無断転載10
A社:加湿器 
2014.11.07 ユニバーサルナレッジー禁無断転載11
B社:加湿器 
2014.11.07 ユニバーサルナレッジー禁無断転載12
C社:加湿器 
2014.11.07 ユニバーサルナレッジー禁無断転載13
A社:空気清浄機 
2014.11.07 ユニバーサルナレッジー禁無断転載14
B社:空気清浄機 
2014.11.07 ユニバーサルナレッジー禁無断転載15
C社:空気清浄機 
2014.11.07 ユニバーサルナレッジー禁無断転載16
1分で分かる検索のしくみ 
? 検索とはDiscoveryまたはRecovery 
? 商品検索のほとんどはDiscovery 
– お客様は専門知識を持っていない 
? Relevance≒人気商品 
2014.11.07 ユニバーサルナレッジー禁無断転載17
KAIZENを回す 
? 「新しいソリューション」では解決しない 
? お客様の行動を見てそこから学習する 
? ログを見る→仮説を立てる→アルゴリズムを 
改善する→テストする→ログを見る… 
2014.11.07 ユニバーサルナレッジー禁無断転載18
人的な運用が良いサービスのカギ 
? 商品データ登録 
? 商品画像 
? カテゴリ構造 
? スペック 
? バリエーション 
? 後継商品 
? 中間テーブル 
? Keys 
? 同義語登録 
? 形態素解析辞書登録 
2014.11.07 ユニバーサルナレッジー禁無断転載19
人的な運用が良いサービスのカギ 
? 良い検索とは… 
テクノロジーとアートの融合 
2014.11.07 ユニバーサルナレッジー禁無断転載20
KAIZENサイクル 
? アルゴリズム改善 
? 相関性評価 
– DCG(Discounted Cumulative Gain) 
? バケットテスト 
– テストバケットA:5% 
– テストバケットB:5% 
– コントロールバケット:5% 
? 統計的な優位差の検証 
2014.11.07 ユニバーサルナレッジー禁無断転載21
Web検索の実際 
? インプレッションとクリックの世界 
? お客様は満足したのか 
– リテンション 
? どんな指標が重要か 
– インプレッション 
– クリック 
– クリック率 
– バッドクリック率 
– アバンダン率 
– Click Yield 
– Time to Fist Click 
– Time to Last Click 
– Reciprocal Rank of Last Click 
2014.11.07 ユニバーサルナレッジー禁無断転載22
Web検索の実際 
? 機械学習と大量のジャッジメント 
? バケットテスト 
? 広告売上とオーガニック検索の関係 
– Click Yieldは短期的に増えない 
– クリックの奪い合い 
? 小規模なWeb検索は生き残れない 
2014.11.07 ユニバーサルナレッジー禁無断転載23
EC検索の実際 
? 遅れているEC検索の世界 
– 購買データ利用なし(テキストマッチ) 
– バケットテストなし 
– 統計処理なし 
? 購買データのシグナルの強さ 
? 検索利用者はコンバージョンが高い 
– 検索非利用者:3.0% 
– 検索利用者: 7.2%(2.4倍) 
? Amazonが優れているのはデータが多いから 
? ECサイトにテクノロジーを! 
2014.11.07 ユニバーサルナレッジー禁無断転載24
ECで利用しているデータ 
? 実は簡単なECサイトの構造 
? 全ての導線でログを取る 
トップページ 
クリック 
リストページ(カテゴリor 検索) 
クリック 
カート 
クリック 
チェックアウト 
2014.11.07 ユニバーサルナレッジー禁無断転載25
ECで利用しているデータ 
? リアルの購買データも利用する 
? 実際にはデータがつかない商品が大半 
– 規模の大きなサイトだけがビッグデータのメリット 
を享受する(当たり前) 
– 専門家による紹介(おすすめ、レビュー)が大事 
2014.11.07 ユニバーサルナレッジー禁無断転載26
ユニナレについて 
2014年9月のデータ 
? 月間利用者数:2,152万UU 
– Amazon4,800万UUの45% 
? APIリクエスト数:5億4,124万 
2014.11.07 ユニバーサルナレッジー禁無断転載27
ユニナレのサービス構成 
? ASPサービス 
? データフィード 
? タグログ 
? API 
? 個人情報は利用しない 
API 
タグ 
お客様の行動 
2014.11.07 ユニバーサルナレッジー禁無断転載28
図書館で活用出来るデータは? 
? 貸出履歴 
? 閲覧履歴 
? 予約 
? ウェブサイトのログ 
– インプレッション 
– クリック 
– お気に入り 
– レビュー 
– シェア 
? そもそも図書館システムのゴールは何か? 
? 規模を確保するにはどうすれば良いか? 
2014.11.07 ユニバーサルナレッジー禁無断転載29
http://www.slideshare.net/toshiinoue 
2014.11.07 ユニバーサルナレッジー禁無断転載30

More Related Content

20141107 図書館総合展 ユニハ?ーサルナレッシ?_講演資料