狠狠撸

狠狠撸Share a Scribd company logo
ソーシャルゲームでは、データが
ユーザーを理解する!
~Cheap&agile data mining~
久保 翔太
自己紹介

? Semi-supervised learningの研究
   ? から逃げて引きこもったり


? 最近一部上場した森タワーの会社とか
? 昔一部上場してた元森タワーの会社とか
   ? の下っ端プログラマ


? データを眺めるのが本業より楽しかったのでキャリアチェンジ
   ? Chief data scentinst
今日の话题


   ?すごい技術の話、すごいモデルの話
   ?一人部署でデータマイニングの業務を作った話
    ?しません
   ?おもしろかったデータの話
   ?安くて早いデータ発掘の話
    ?します
データの特徴

? 全てプラットフォームのidに紐付いているので追跡可
  能
? データの組み合わせが多い(カラム数 * テーブル3桁
  くらい)
? 全てチェックするのは無理 →特徴を競合よりたくさ
  ん見つけたら勝ち
? 量に関してはインフラの人が何とかしてくれているの
  で処理の面倒さでは余り変わらない。むしろ質(行動
  データの記録量)
モンティ?ホール问题より役に立つ话
? 塔を登るイベント
? 1階毎に扉が2~4個
? 扉の答は決まっているので答えを共有できる




→一回目で間違える確率は?
失敗確率がおかしい




2択で70%も     母数の割に収束しなさすぎる
間違えるのは
おかしい
正解番号と失敗率

4




3




2




1




0
    0   0.1   0.2   0.3   0.4   0.5       0.6   0.7   0.8




1が答えの時だけ正解率が良い                        1→1→1と3連続の時
=連打で1から選んでいる
TL;DR


?選択肢がある時は片っ端から開ける
?次の階は前の階とは違う扉と考える

?それ役に立つの?
 ?「ウザい」設計にしたり逆にチョロくしたり
竞争心のはなし
?イベントにはランキングに応じて報酬が
 ?30位ならめちゃ良い物
 ?50位ならけっこう良い物
 ?100位ならそこそこ良い物
?「イベントの報酬なんですが???どう思い
 ますか?」→どうって言われても???
竞争している场
         所(ポイントが
         跳ね上がってる




point




    0     50   100   150   200   250    300   350   400   450   500

                                 rank


        目的の順位に到達した後は
        競争しなくなる
ランキングの最適化

  50位で貰えてた物を100位でも貰えるようにする



ランク確定                ランク確定

  消費
  体力    競争                   消費体力   競争


             勝負しない                  勝負しない
  50人                 100人
そこそこ成功
アーリーアダプターの话
? アプリBの事前登録(≒予約)ユーザーの半分が一年前のアプリAのユーザーと
  被っていた




     appA                appB
アーリーアダプターでした




     appA                appB




   重複ユーザーのうち25%がappAのリリース後5日以内に登録

役に立つの?→リリース直後のユーザー数の見積りと初期ユーザーの目的
アジャイルな话
?基本無料のゲームは入会初日で「半分より多
 い」割合が辞める。
?離脱、継続するファクターを意識して改善し
 続ける必要がある
?継続する→DAU増える→イベントがにぎわう
 →売上増える→桶屋が储かる
Id          Page1のpv   …       Page255のpv   継続したか
 123456      100                23           1
 234567      21                 2            0




(overfitしまくりの)決定木




          最初のボス倒したユーザーの80%が継続

                   ならボスを倒しやすくしてみよう
対象ユーザーの継続率が80→60%に




 逆に倒し辛くしたら?(実験中)
イテレーションが大事
                                効果測定
         自明な結果


問題定義    ファクターの発見         説明     施策適用
 0.5h      6h            0.5h    1h



                 データ収集
                  3day
アジャイルな话2
課金率が高い新規入会者が入ってきた
継続率も良い
Copyright?2011 givery, Inc. All
rights reserved.

                                  ダブルスコアで
                                  初期カードにかわいい系を選択
                                  かつ課金先のほとんどがガチャ
施策   結果




          二倍の反応率
発見から施策まで:
6時間
人工人工知能によるパターン発见のはなし
Librato Metricsで捗る

? 自分以外数字をみてくれない
   ? Cactiでグラフ描いた→失敗
   ? Phpmyadminで自分で見て→失敗
? Librato Metrics
   ? APIに値投げるだけ
   ? 安い。1プロット$0.000002 !
   ? パーマリンクも貼れる
   ? スクリーンショットも貼れる
   ? 2010年代のオシャレっぽさ
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
数えられるくらいの量なら人間に
パターン発見やらせたほうが高性能
飽きそうなユーザーを
セグメント分けした話
主成分分析
Id        1月ガチャ課金   …   7月ガチャ課金   総額
123456    100           23        200
234567    21            2         50




「飽きつつあるユーザー」「最近課金しつつあるユーザー」「コンスタント」
などで説明できる主成分に
?   [2012/07/05 17:34:17] 翔太 久保
?   [2012/07/05 17:34:20] 翔太 久保: に置きました
?   [2012/07/05 17:34:51] 翔太 久保: god.txtとい
    うのが元のデータで
?   [2012/07/05 17:35:15] 翔太 久保: プレイヤーid
    ガチャ12001を回した回数 ???? 12006 合
    計回数 というフォーマットになっています
?   [2012/07/05 17:36:18] 翔太 久保: これを主成分
    分析なる物にかけると、元のガチャ6種類+合計
    の軸が 主成分なる謎の軸で表現できるように
    なります。これを図で示したのがpngの画像で
    す
?   [2012/07/05 17:37:40] 翔太 久保: 例えば主成分
    2は合計額が多くて、12001の回数が多くて、
    他、特に12006が少ない人という意味なので、
    人間の言葉で表すと「昔はよかった」と言えそ
    うです
?   [2012/07/05 17:38:47] 翔太 久保: 右の表を見
    て、昔は???のスコアが高い人は今日みた様
    な、1月に課金しまくって合計額も多いけど、今
    はやってない人の群になります。
?   [2012/07/05 17:39:05] 翔太 久保: ちなみに一番
    スコア高いのは今日みた さんです
?   [2012/07/05 17:39:08] 翔太 久保: ???という
?   [2012/07/05 17:39:15] 翔太 久保: 説明下手なも
    ので??
?   [2012/07/05 17:40:03] 翔太 久保: 図を見ると主
    成分2と3の2軸を使うと3群くらいに分類できそ
    うな感じですよね。
?   [2012/07/05 17:41:14] 翔太 久保: なので主成分
    2のスコアが高いユーザーを集めると「最近課金
    してくれないユーザー群」
?   [2012/07/05 17:42:09] 翔太 久保: 主成分3は
    「ここ数カ月でたくさん課金してくれるユー
    ザー群」になるので、さらに集計するなり直で
    カムバックメッセージ送るなり、でしょうか活
    用するとしたら
簡単な方法ならそれが一番

? Facebookでデータサイエンティストとして働いている人の
  ブログより: Effectively answering questions is where
  technical skills become important. It's easy to get
  caught up in fancy algorithms and methods, but those
  approaches are usually premature optimizations. The
  best answers are 1) cheap and 2) easy to explain.
その他


?Apache pig+amazon EMRと10行のスクリ
 プトで一年分のログを100円で集計できた話
?相関ルールでキャラクター属性のカテゴラ
 イズ
?シンプルなモデルでDAUを予測できた話
?チーターを検出した話
Ad

Recommended

WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
?
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
Takashi J OZAKI
?
おしゃスタ补迟银座
おしゃスタ补迟银座
Issei Kurahashi
?
おしゃスタ蔼リクルート
おしゃスタ蔼リクルート
Issei Kurahashi
?
【スクー】业务改善のためのデータサイエンス
【スクー】业务改善のためのデータサイエンス
Issei Kurahashi
?
再発事象の解析をやってみる
再発事象の解析をやってみる
Atsushi Hayakawa
?
121218 zansa13 for web
121218 zansa13 for web
Zansa
?
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
Zansa
?
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
Zansa
?
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
Zansa
?
ビジネスの现场のデータ分析における理想と现実
ビジネスの现场のデータ分析における理想と现実
Takashi J OZAKI
?
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
takeshi0406
?
几何を使った统计のはなし
几何を使った统计のはなし
Toru Imai
?
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
?
補足資料 財務3表の基礎知識
補足資料 財務3表の基礎知識
horihorio
?
統計と会計 - Zansa#19
統計と会計 - Zansa#19
horihorio
?
独立成分分析 ICA
独立成分分析 ICA
Daisuke Yoneoka
?
tokyor29th
tokyor29th
Mikiya Tanizawa
?
独立成分分析と笔别谤蹿耻尘别
独立成分分析と笔别谤蹿耻尘别
Yurie Oka
?
(道具としての)テ?ータサイエンティストのつかい方
(道具としての)テ?ータサイエンティストのつかい方
Shohei Hido
?
20181219冲全部见せます、データサイエンティストの仕事
20181219冲全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
Daisuke Nogami
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Shunsuke Nakamura
?
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
?
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
?
全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
Treasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善について
Keisuke Noda
?
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
Daisuke Nogami
?

More Related Content

Viewers also liked (12)

【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
Zansa
?
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
Zansa
?
ビジネスの现场のデータ分析における理想と现実
ビジネスの现场のデータ分析における理想と现実
Takashi J OZAKI
?
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
takeshi0406
?
几何を使った统计のはなし
几何を使った统计のはなし
Toru Imai
?
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
?
補足資料 財務3表の基礎知識
補足資料 財務3表の基礎知識
horihorio
?
統計と会計 - Zansa#19
統計と会計 - Zansa#19
horihorio
?
独立成分分析 ICA
独立成分分析 ICA
Daisuke Yoneoka
?
tokyor29th
tokyor29th
Mikiya Tanizawa
?
独立成分分析と笔别谤蹿耻尘别
独立成分分析と笔别谤蹿耻尘别
Yurie Oka
?
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
【Zansa】第12回勉強会 -PRMLからヘ?イス?の世界へ
Zansa
?
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
Zansa
?
ビジネスの现场のデータ分析における理想と现実
ビジネスの现场のデータ分析における理想と现実
Takashi J OZAKI
?
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
社会の意见のタ?イナミクスを物理モテ?ルとして考えてみる
takeshi0406
?
几何を使った统计のはなし
几何を使った统计のはなし
Toru Imai
?
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
?
補足資料 財務3表の基礎知識
補足資料 財務3表の基礎知識
horihorio
?
統計と会計 - Zansa#19
統計と会計 - Zansa#19
horihorio
?
独立成分分析と笔别谤蹿耻尘别
独立成分分析と笔别谤蹿耻尘别
Yurie Oka
?

Similar to Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」 (20)

(道具としての)テ?ータサイエンティストのつかい方
(道具としての)テ?ータサイエンティストのつかい方
Shohei Hido
?
20181219冲全部见せます、データサイエンティストの仕事
20181219冲全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
Daisuke Nogami
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Shunsuke Nakamura
?
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
?
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
?
全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
Treasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善について
Keisuke Noda
?
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
Daisuke Nogami
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
?
Ques12_自動テスト ? 機械学習 ?自動テスト結果分析は楽になるか??
Ques12_自動テスト ? 機械学習 ?自動テスト結果分析は楽になるか??
Mao Yamaguchi
?
20180807_全部见せます、データサイエンティストの仕事
20180807_全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Shunsuke Nakamura
?
データ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみた
Shin Semiya
?
デジタル时代の竞争戦略を支える次世代データプラットフォーム
デジタル时代の竞争戦略を支える次世代データプラットフォーム
Natsumi Yotsumoto
?
20140708 オンラインケ?ームソリューション
20140708 オンラインケ?ームソリューション
Takahiro Inoue
?
Share Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメ
kumo2010
?
(道具としての)テ?ータサイエンティストのつかい方
(道具としての)テ?ータサイエンティストのつかい方
Shohei Hido
?
20181219冲全部见せます、データサイエンティストの仕事
20181219冲全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
テキストマイニングのイメージと実际
テキストマイニングのイメージと実际
antibayesian 俺がS式だ
?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
データに振り回されて失敗した あんなことやこんなこと+α  ?なぜ数字の手助けが必要になるのか、その理由と分析の実践例?
Daisuke Nogami
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
Shunsuke Nakamura
?
集合知プログラミング勉強会 7章(前半)
集合知プログラミング勉強会 7章(前半)
koba cky
?
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
cvpaper. challenge
?
全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
Treasure Data サポートにおける課題と改善について
Treasure Data サポートにおける課題と改善について
Keisuke Noda
?
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
Daisuke Nogami
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
?
Ques12_自動テスト ? 機械学習 ?自動テスト結果分析は楽になるか??
Ques12_自動テスト ? 機械学習 ?自動テスト結果分析は楽になるか??
Mao Yamaguchi
?
20180807_全部见せます、データサイエンティストの仕事
20180807_全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
?
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
Shunsuke Nakamura
?
データ分析しながらゲームの施策打ってみた
データ分析しながらゲームの施策打ってみた
Shin Semiya
?
デジタル时代の竞争戦略を支える次世代データプラットフォーム
デジタル时代の竞争戦略を支える次世代データプラットフォーム
Natsumi Yotsumoto
?
20140708 オンラインケ?ームソリューション
20140708 オンラインケ?ームソリューション
Takahiro Inoue
?
Share Point Online 会社のデータしっかり管理のススメ
Share Point Online 会社のデータしっかり管理のススメ
kumo2010
?
Ad

Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」