狠狠撸

狠狠撸Share a Scribd company logo
データサイエンティストに聞く!
今更聞けない機械学習の基礎から応用まで
株式会社エスト?ルージュ
中村俊輔
今日の流れ
? 何故今機械学習なのか
? 機械学習を取り巻く環境とビジネス機会の関係
? 機械学習のしくみ
? 図で分かる機械学習、中では実際に何をしているのか
? データサイエンティストに必要な要素
? どんな力を身につければよいのか
? データサイエンティスト体験
? 数式、プログラミングいらず。ビジネス課題を実際に解決
? 機械学習のこれから
? 機械学習とどう付き合っていくか 機械学習の今後の動きとあるべき姿
? おまけ
? ポケモンで分かるデータサイエンティストの育て方
ここがメイン
勉強会が終わったときにあなたは
? 今日の勉強会で…
? 機械学習でビジネス課題を解決する考え方が分かる
? データサイエンスの楽しさがわかる…かもしれない
自己紹介
? 学生時代
? 大学でアメフト部で相手チームのデータ分析
? 大学、大学院で機械学習を専攻
? 研究テーマ :機械学習によるアメリカンフットボールの戦略推定
? 社会人
? 楽天でキャリアスタート
? Hadoopを使ったビッグデータ処理、
Webアプリケーション開発
? 機械学習を使う機会には恵まれず
? cherry-pick入社
? 自社サービスの機械学習部分の開発
? 9DW CTO就任
? 受託開発の機械学習部分
? エスト?ルージュ 取締役就任
? アプリケーションの機械学習部分の開発、マネージャ
注意
? サッカー選手ではありません
データ!アメフト!
データ!
データ!
中村俊輔
@shun_naka
自己紹介
? 個人の活動
? NFLでデータ分析屋さんになるべく
アメフトのアプリの研究開発をやってます
@京都
? 一般社団法人Japan American football Dream
の一員として活動もしてます
? サッカーではなくアメフト
中村俊輔
@shun_naka
データ!とスポーツ(特にアメフト)で
面白いことをやりたい!
お知らせ
? 手元で動かしながら体験したい人は準備をお願いします
? 後半にRを利用したハンズオンを予定しております。(ハンズオンはv 3.3.1で動作確認済)
? “R インストール”で検索してインストールお願いします
http://www.okadajp.org/RWiki/?R%20%E3%81%AE%E3%82%A4%E3%8
3%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB
? 以下URLを開いておいてください
https://github.com/shunnakamu/machine_learning_training
何故今、機械学習なのか?
機械学習を取り巻く環境とビジネス機会の関係
まずは頭の整理
? よく聞く単語ってどこにいるの?
人工知能
汎用人工知能
機械学習
クラス分類器
Deep Learning
特化型人工知能
人間の脳を
計算機で作
るぞ!
人間の知的な行動の一部
を計算機で実現したい
はじめに
? 機械学習?
? 人間が自然に行っている学習能力と同様の機能を
コンピュータで実現しようとする技術?手法 (Wikipedia)
? 1959年から存在
? 特別新しい技術ではない
はじめに
? 何故今注目されている?
? コンピュータのほうが安く
よりよく課題を解く場面が増えた
? 何故そんな場面がふえたのか
? 人間 vs コンピュータ
? 人間の得意なこと
? 曖昧さを許容
? 多様な知識を自ら学習
? コンピュータの得意なこと
? 大規模計算が正確、高速
? 不眠不休
? コンピュータの性能上昇、データ量増加
? コンピュータのほうが安く
よりよく課題を解く場面が増えた
? 今ある仕事のいくつかはコンピュータになる…
かも
? 実用例
? スパムメール検知
? カメラの顔検出 …等
機械学習がもたらす影響
? 現在進行形で産業革命が2つ起こっている
? ICT革命
? 人工知能革命
? 機械学習でビジネス課題を解決できると競争力があがる
? 機械学習を使った方が低コストでよりよく解決できる課題が多くなる
? その課題を機械学習を使って解決することで競争力があがる
機械学習のしくみ
図で分かる機械学習、中では実際に何をしているのか
どうやって動いてるの?
? 解きたい問題をコンピュータに解ける状態にして解く
? 人間の問題解決を数値計算で表現する(数値計算に意思をもたせる)
? 賢く解かせる
? 現実の問題は厳密に最適解を求めることは難しい
? 例) 巡回セールスマン問題
? 厳密な最適解のためには総当たり計算が必要
? NP困難 (有限時間で計算が終わらない)
? 最適じゃなくていいからそれっぽいものを出そう
? 機械学習!
? 人間がやっているようなことをまねる
http://sssslide.com/www.slideshare.net/DataScientist_JP/09-53539349
機械学習って…
? 色々な手法が登場して全容が掴みづらい
Deep Learning
サポートベクターマシン
ロジスティック回帰
線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰
機械学習って…
? まとめると
? クラス分類
? 回帰
? クラスタリング
? その他
Deep Learning
サポートベクターマシン
ロジスティック回帰 線形判別分析
線形回帰分析
K-meansクラスタリング
主成分分析
自己組織化マップ
K近傍判別
ランダムフォレスト
決定木分析
ニューラルネットワーク
サポートベクター回帰
機械学習って…
? 大きく分けると3つの問題を解く道具
? クラス分類
? 回帰
? クラスタリング
? その他
? 3つの問題と、代表的な解き方を学ぶことで全容が分かる
代表的な手法を通じて問題と解き方を理解する
? クラス分類
? 線形判別分析
? 回帰
? 線形回帰分析
? クラスタリング
? K-means クラスタリング
教師あり学習、教師なし学習
? さらに大きく分けると2つに分かれる
? 教師あり学習
? クラス分類
? 回帰
? 教師なし学習
? クラスタリング
教師あり学習
? 教師データ
? コンピュータに推定させたいものの正解のデータ
? 教師あり学習をするためには以下が必要
? 教師データ (目的変数, 基本的に1変数)
? 教師データを推定できる情報 (説明変数, 複数可)
? 例
? スパムメール検知
? 教師データ : メールごとのスパムメール or 通常メール
? 推定できる情報 : メールタイトル、本文に登場する単語等
? アイスクリーム売り上げ推定
? 教師データ : 日ごとの売り上げ金額
? 推定できる情報 : その日の気温、湿度
[1] "make" "address" "all" "num3d"
[5] "our" "over" "remove" "internet"
[9] "order" "mail" "receive" "will"
[13] "people" "report" "addresses" "free"
[17] "business" "email" "you" "credit"
[21] "your" "font" "num000" "money"
[25] "hp" "hpl" "george" "num650"
[29] "lab" "labs" "telnet" "num857"
[33] "data" "num415" "num85" "technology"
[37] "num1999" "parts" "pm" "direct"
[41] "cs" "meeting" "original" "project"
[45] "re" "edu" "table" "conference"
[49] "charSemicolon" "charRoundbracket" "charSquarebracket"
"charExclamation"
[53] "charDollar" "charHash" "capitalAve" "capitalLong"
[57] "capitalTotal" "type"
例) メールのデータ
クラス分類と回帰の違い
? 教師データの種類が違う
? クラス分類
? 教師データが離散値、大小、順序関係を持たない
? 例
? スパムメール検知
? 回帰
? 教師データが連続値、大小、順序関係を持つ
? 例
? 売り上げ推定
[1] "Ozone" "Solar.R" "Wind" "Temp" "Month" "Day"
例) オゾンのデータ
教師なし学習
? 教師なし学習のためには
? なんらかの特徴を持ったデータ
? 例
? 顧客のセグメンテーション
? データ : 年齢、性別、購買頻度、購買金額
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
例) 植物のデータ
解いてみよう!
代表的な解き方を使って解いてみましょう!
実際にお手元で解いていただきます
クラス分類
? 線形判別分析
? 群間の分散と郡内の分散の比が最大になる
判別用の超平面のパラメータを求める
z = ax + by + c
うまく分類できるa, b, cを求める
a,b,c を求めておけばzの正負で分類できる
z : 目的変数
x, y : 説明変数
a, b, c : 教師データを使って求めるパラメータ
-> これを利用することで未知のデータの分類ができる
モデルを作成するとも言う
? 性能はテストデータの正答率で評価
Pythonで線形判別分析
トレーニングデータ : 学習用(パラメータa,b,cを求めるための)データ
テストデータ : 学習したモデルの汎化性能(知らないデータに対しての性能)をチェックするためのデータ
※ Jupyter Notebookはセミナー中しか利用できないので、スライドを見ている人はこちら
https://github.com/shunnakamu/machine_learning_training/tree/master/Python/notebooks
sandbox.9dw.jp:3002
Pass word : “” (no password)
irisデータセットとは?
? 日本語で
? Edgar Anderson のあやめのデータ
? 説明
? この有名な(Fiher もしくは Anderson の)あやめのデータセットは
三種類のあやめの品種のそれぞれからの50の花の
センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。
品種は Iris setosa, versicolor そして virginica である。
? 書式
? iris は 150 例(行) と、
名前 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
そして Species を持つ 5 変量(列) からなるデータフレームである。
データフレーム : この場合2次元データフレームなので表形式のデータ
http://www.is.titech.ac.jp/~mase/mase/html.jp/temp/iris.jp.html
クラス分類 (おまけ)
? Deep Learning
? 脳の情報処理の方法を真似て作られたネットワークである
ニューラルネットワークをより多層(Deep)にしたもの
? 入力層、中間層、出力層からなるネットワーク
ノードはニューロンで
特定の信号に対して発火(特定の値をとる)する
? ニューラルネットワーク自体はかなり前からある
(1943年)※
? 以前はDeepにすると過学習する傾向にあったが、
過学習しないための仕組みが発見され、一気にブーム
? 良いところ
? 画像、音声等の特徴量が多いデータに対して強い
? 悪いところ
? 何をやっているのか人間に理解できない
※Warren S. McCulloch; Walter Pitts (December 1943). "A
logical calculus of the ideas immanent in nervous activity".
回帰
? 線形回帰分析
? 目的変数を説明変数の式で表現し
誤差が最小になる係数を求める
y = ax + b
y をうまく表現する(誤差が最小になる)
a, bを求める
xが与えられればyが求まる
y : 目的変数
x : 説明変数
a, b : 教師データを使って求めるパラメータ
? 性能はテストデータへの誤差で評価
Pythonで線形回帰
トレーニングデータ : 学習用(パラメータa,b,cを求めるための)データ
テストデータ : 学習したモデルの汎化性能(知らないデータに対しての性能)をチェックするためのデータ
※ Jupyter Notebookはセミナー中しか利用できないので、スライドを見ている人はこちら
https://github.com/shunnakamu/machine_learning_training/tree/master/Python/notebooks
sandbox.9dw.jp:3002
Pass word : “” (no password)
Boston house-prices データセットとは?
? 日本語で
? ボストン市の住宅価格
? 説明
? 米国ボストン市郊外における地域別の住宅価格のデータセット
? 書式
? 目的変数 (1,000 ドル台でオーナーが所有する住宅の価格の中央値)
http://pythondatascience.plavox.info/scikit-learn/scikit-
learn%E3%81%AB%E4%BB%98%E5%B1%9E%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%83%8
7%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88/
CRIM 人口 1 人当たりの犯罪発生数
ZN 25,000 平方フィート以上の住居区画の占める割合
INDUS 小売業以外の商業が占める面積の割合
CHAS チャールズ川によるダミー変数 (1: 川の周辺, 0: それ以外)
NOX NOx の濃度
RM 住居の平均部屋数
AGE 1940 年より前に建てられた物件の割合
DIS 5 つのボストン市の雇用施設からの距離 (重み付け済)
RAD 環状高速道路へのアクセスしやすさ
TAX $10,000 ドルあたりの不動産税率の総計
PTRATIO 町毎の児童と教師の比率
B 町毎の黒人 (Bk) の比率を次の式で表したもの。 1000(Bk – 0.63)^2
LSTAT 給与の低い職業に従事する人口の割合 (%)
クラスタリング
? K-means クラスタリング
? クラスタ数を決める
? 初期値を与える
1. 各クラスターの中心(平均値)を求める
2. 各データをもっとも近いクラスター中心に割り当てなおす
3. 1, 2を実行して割り当てが変化しなければ終了
PythonでK-means
トレーニングデータ : 学習用(パラメータa,b,cを求めるための)データ
テストデータ : 学習したモデルの汎化性能(知らないデータに対しての性能)をチェックするためのデータ
※ Jupyter Notebookはセミナー中しか利用できないので、スライドを見ている人はこちら
https://github.com/shunnakamu/machine_learning_training/tree/master/Python/notebooks
sandbox.9dw.jp:3002
Pass word : “” (no password)
機械学習はビジネス課題を解くときの一部でしかない
? 実際のビジネス課題を解く手順例
? 問題選定
? データ選定
? 前処理
? 機械学習で分析
? 結果確認、再処理
データサイエンティストに必要な要素
データサイエンティストに必要な要素3つ
※ミッション、スキルセット、定義、スキル. レベル byデータサイエンティスト協会
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
? 黎明期の現在はすべてを持ち合わせる必要がある
? さらに素早く成果物を出すには一人ですべてカバーしている必要がある
よくある光景 (ビジネス力が足りていない)
よくある光景 (データサイエンス力が足りていない)
よくある光景 (データエンジニア力が足りてない)
スキルセットが必要な場面
? 実際のビジネス課題を解く手順ごとに必要なスキル
? 問題設定 (ビジネス力、データサイエンス力)
? データ選定 (ビジネス力、データサイエンス力)
? 前処理 (データエンジニアリング力、データサイエンス力)
? 機械学習で分析 (データエンジニアリング力、データサイエンス力)
? 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
? これから体験してもらうところ
? 問題設定 ~ 前処理の一部まで
? 体験しながら自分の現在のスキルや
どんなスキルが必要なのか理解しよう
データサイエンティスト体験
数式、プログラミングいらず。ビジネス課題を実際に解決
ビジネス課題を機械学習を使って解決
? 今までのまとめ
? 使うだけなら簡単
? 資料もWebにたくさんある
? 重要なところ
? どう使うの?
? どんなデータをどう処理するの?
? 出した答えをどう理解するの?
? 経験、ノウハウが必要でビジネスで差が出るところだが資料は少ない
ビジネス課題を機械学習を使って解決
? 今からやってもらうもの
? あるビジネス課題を機械学習で解決するロールプレイ
? 重要な部分をわざと曖昧にしてあります
ほしい情報は質問して入手してください
? 何人かでチームを作って課題解決にあたってください
? プログラミングはしません
? 対象フェーズ
? 問題設定 (ビジネス力、データサイエンス力)
? データ選定 (ビジネス力、データサイエンス力)
? 前処理 (データエンジニアリング力、データサイエンス力)
? 機械学習で分析 (データエンジニアリング力、データサイエンス力)
? 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
シチュエーション
? 会社
? 旅行代理店 (J○B, H○S)
? ボス
? 「過去の宿泊予約の履歴からその日に泊まる人数を予測するサービスを立ち上げたい」
? 「持ってるデータはこれだから」
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ(過去の宿泊予約の履歴)
やること
? 対象フェーズ
? 問題設定 (ビジネス力、データサイエンス力)
? データ選定 (ビジネス力、データサイエンス力)
? 前処理 (データエンジニアリング力、データサイエンス力)
? 機械学習で分析 (データエンジニアリング力、データサイエンス力)
? 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
? ポイント
? ボスに質問して詳細を聞き出そう
? しばらくしたら先輩データサイエンティストが登場
問題設定
? どの問題として解くか?
? クラス分類
? 回帰
? クラスタリング
? その他
? 何に対して解くか?
? 都道府県?地域?宿泊施設?
やること
? 対象フェーズ
? 問題設定 (ビジネス力、データサイエンス力)
? データ選定 (ビジネス力、データサイエンス力)
? 前処理 (データエンジニアリング力、データサイエンス力)
? 機械学習で分析 (データエンジニアリング力、データサイエンス力)
? 結果確認、再処理 (データエンジニアリング力、データサイエンス力)
? ポイント
? 持っているデータのどれを利用するか?
(どんな式にするか?)
? しばらくすると先輩データサイエンティストとの答え合わせ
変数設定、データセット作成
? データセットは自分たちが作らないといけない
? サンプルのように整備されたものはない
? 目的変数
? 目的変数に設定すべきものは?
? 説明変数
? 説明変数に設定すべきものは?
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
変数設定 設定例
? 目的変数
? 人数計
? 説明変数
? 宿泊日_年
? 宿泊日_月
? 宿泊日_日
? 客室タイプ
? 食事条件
? 金額
? モデルを作成する単位
? 施設コード
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
前処理
? 前処理が必要なデータ
? 人数計
? 日付ごとに合計データにしておく
? 宿泊日
? 曜日を算出しておく
? 客室タイプ、食事条件
? 種類ごとにベクトル化、数が少ないものはその他に
お客様性別
お客様都道府県
決済手段
宿泊年
宿泊月
宿泊日
販売年
販売月
販売日
施設所在都道府県
地区コード
施設コード
施設名
施設形態
客室タイプ
プラン名
食事条件
お客様年齢
金額
泊数
室数
大人男
大人女
小人
人数計
持っているデータ
データサンプル
月 火 水 木 金 土 日
ツイ
ン
シン
グル
和室
和洋
室
洋室
客室
タイ
プ_そ
の他
2食付
き
朝食
付き
食事
無
(ル
ーム
チャ
ー
ジ)
食事
条件_
その
他
金額
宿泊
人数
0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0
1610
0
1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0
2430
0
1
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 8100 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 1
0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 7420 2
0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0
1607
0
5
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7636 1
1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 7300 1
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 7200 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 8500 1
0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 7924 1
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 6736 1
0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0
1080
0
2
※金額はこの後0-1の範囲にする
場合によっては対数もとる
分析
travel <-
read.table(“travel_data.tsv”,
header=TRUE, sep=“?t”, na.strings=“NA”, dec=“.”, strip.white=TRUE)
travel.lm <- lm(宿泊人数 ~. , data=travel)
summary(travel.lm)
summary(travel$宿泊人数)
# 誤差の平均を確認する
travel.lm.pre <- predict(travel.lm, travel[,-23])
travel.lm.result <- abs(travel.lm.pre - travel[,23])
summary(travel.lm.result)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.000 1.000 2.000 2.634 3.000 30.000
# モデルのパラメータ
travel.lm$coefficients
# 誤差が一番大きかったデータを確認する
which.max(travel.lm.result)
# データを目検。
結果を確認する
? 回帰がうまくできなかったデータはどのような特徴があるのか?
? 対応すべきか否か?
? 外れ値かどうか?
? これを繰り返して賢く問題を解く機械学習のモデルを作っていく
? これがデータサイエンティストの仕事のメイン
? データの前処理も結構メインだったりする
? 解きたい問題の本質は何かを考える
? 目的変数を表現できる情報を与えてあげれば機械は正しい答えを出してくれる
? 目的変数を表現できる情報とは?
まとめ
? 実際のビジネス課題を機械学習で解いた
? 問題選定
? データ選定
? 前処理
? 機械学習で分析
? 結果確認、再処理
? 実際にビジネス課題を解くとすると…
? 機械学習で分析の部分は簡単、Webで探せばいくらでも資料がある
? 大切なこと
? 問題の本質をとらえる
? 機械が解ける状態にする
? 結果を正しく理解する
機械学習のこれから
機械学習とどう付き合っていくか 機械学習の今後の動きとあるべき姿
機械学習のこれから
? 現在進行形で産業革命が2つ起こっている
? ICT革命
? 人工知能革命
? 機械学習でビジネス課題を解決できると競争力があがる
? 機械学習を使った方が低コストでよりよく解決できる課題が多くなる
機械学習を取り巻く環境
? 使うだけなら誰でもできる
? 機械学習ライブラリの充実
? R
? Python
? 機械学習プラットフォームの充実
? Amazon Machine Learning
? Microsoft Azure Machine Learning
? 結果を読み取ったり、より良くするできることが大切
? 機械学習のPDCAをうまく回せる人がビジネス課題を解決できる
? これができる人、組織は現在少ない
機械学習とどう付き合うか?
? 経営者や管理者
? どの課題を機械学習で解決すべきなのかを理解できるようにする
? 機械学習で解決すべきでない課題を機械学習で解いてもうれしくない
? Deep Learningもビジネス課題を解決する目的なら力を発揮しない場面が多い
? 機械学習で課題を解決できる環境を作る
? 人材確保
? 取引先確保
? データサイエンティスト
? 基礎としての数学を身につける
? PDCAを回すときに数学ができないと結果を正しく理解できない
? 大学数学の線形代数、微分積分は必須
? 基本的な機械学習の手法は数式から理解するべき
? ビジネス課題を解決する教科書はない、経験値が大切
? 基本的には仕事はICTエンジニアと変わらないが、ノウハウがない
さいごに
データサイエンスは楽しい!
今まで人間が解けなかった問題が解ける
働き方をどう変えるか?は我々次第
おまけ
ポケモンで分かるデータサイエンティストの育て方
データサイエンティストに必要な要素3つ
※ミッション、スキルセット、定義、スキル. レベル byデータサイエンティスト協会
http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
? 黎明期の現在はすべてを持ち合わせる必要がある
? さらに素早く成果物を出すには一人ですべてカバーしている必要がある
どうすれば3つの要素を持ち合わせられるのか?
その前にポケモンの話をしよう
※ポケモンGOではなくて本家ポケモン
強いポケモンの育て方
? ポケモンの個体ごとの強いものを選ぶ
? 強くしたいステータスを育てる
? 倒したポケモンに応じて成長する
倒すとこうげきが上がる 倒すとぼうぎょが上がる
効率よく育てるために
? 狙っているポケモンが出現する草むらでポケモンを倒す
ん…?
データサイエンティストになりたければ
3つの能力が上がる場所で活動する…
ポケモンと同じだ!
たまげたなぁ
イワヤマトンネル おつきみやま
つまり…
ポケモン データサイエンス
倒すポケモン 仕事
草むら 职场
データサイエンティストに必要な要素3つが身に着く現場
? 大学、大学院
? 数学、機械学習を身に着ける
? 論文を読んだら実装できる
? 大企業、中企業
? 開発、運用の基礎を身に着ける
? 高速な開発と容易な運用、いわゆるきれいなコードを
書けるようになる
? ベンチャー企業
? 自ら問題解決をする
? 自社、クライアントの問題をデータサイエンスでどう
解決するかを提案できる
? エスト?ルージュ
? 多種多様なクライアントとすべてのことができる!
? データサイエンティストのパイオニアになる
? エンターテイメントをデータでもっと面白くできる
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
ビジネス力
データサイエ
ンス力
データエンジ
ニアリング力
※個人の感想です
さいごに
データサイエンスは楽しい!
今まで人間が解けなかった問題が解ける
働き方をどう変えるか?は我々次第
さいごに 2
興味を持ってくれた人へ
やってみたい人で学生の人 : インターンっぽいのがあるのでやってみませんか
やってみたい人で働いてる人 : 副業してみませんか
何かデータで困っている人 : 力になります。お話を聞かせてください
Ad

More Related Content

What's hot (14)

20180807冲全部见せます、データサイエンティストの仕事
20180807冲全部见せます、データサイエンティストの仕事20180807冲全部见せます、データサイエンティストの仕事
20180807冲全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
20181219_全部见せます、データサイエンティストの仕事
20181219_全部见せます、データサイエンティストの仕事20181219_全部见せます、データサイエンティストの仕事
20181219_全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
?
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
Takashi J OZAKI
?
Retail Face Analysis Inside-Out
Retail Face Analysis Inside-OutRetail Face Analysis Inside-Out
Retail Face Analysis Inside-Out
Tatsuya Shirakawa
?
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
?
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
The Japan DataScientist Society
?
データアカデミー 兵庫広域自治体2
データアカデミー 兵庫広域自治体2データアカデミー 兵庫広域自治体2
データアカデミー 兵庫広域自治体2
Hiroyuki Ichikawa
?
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
逸人 米田
?
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
Shohei Hido
?
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
Katsuya Ishiyama
?
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
Takashi J OZAKI
?
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Tatsuya Shirakawa
?
20180807冲全部见せます、データサイエンティストの仕事
20180807冲全部见せます、データサイエンティストの仕事20180807冲全部见せます、データサイエンティストの仕事
20180807冲全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事全部见せます、データサイエンティストの仕事
全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
20181219_全部见せます、データサイエンティストの仕事
20181219_全部见せます、データサイエンティストの仕事20181219_全部见せます、データサイエンティストの仕事
20181219_全部见せます、データサイエンティストの仕事
Shunsuke Nakamura
?
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
?
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
「データサイエンティスト?ブーム」后の公司におけるデータ分析者像を探る
Takashi J OZAKI
?
Retail Face Analysis Inside-Out
Retail Face Analysis Inside-OutRetail Face Analysis Inside-Out
Retail Face Analysis Inside-Out
Tatsuya Shirakawa
?
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
?
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
The Japan DataScientist Society
?
データアカデミー 兵庫広域自治体2
データアカデミー 兵庫広域自治体2データアカデミー 兵庫広域自治体2
データアカデミー 兵庫広域自治体2
Hiroyuki Ichikawa
?
Generative Deep Learning #01
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
逸人 米田
?
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
Shohei Hido
?
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
颈濒濒耻蝉迟谤补迟颈辞苍2惫别肠によるタグ抽出
Katsuya Ishiyama
?
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの?学んでもらいたいもの
Takashi J OZAKI
?
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- ?見えていないものを見出す機械学習
Tatsuya Shirakawa
?

Similar to データサイエンティストに闻く!今更闻けない机械学习の基础から応用まで V e-1 (20)

機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
Daiyu Hatakeyama
?
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
Hajime Fujita
?
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化
Atsushi Yokohama (BEACHSIDE)
?
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
?
笔测迟丑辞苍による机械学习
笔测迟丑辞苍による机械学习笔测迟丑辞苍による机械学习
笔测迟丑辞苍による机械学习
Kimikazu Kato
?
Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版
Daiyu Hatakeyama
?
データ処理の改善をどのように行なうか
データ処理の改善をどのように行なうかデータ処理の改善をどのように行なうか
データ処理の改善をどのように行なうか
Ken SASAKI
?
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
nobu_k
?
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
DeNA
?
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
?
OpenData_DataCurator_20140927
OpenData_DataCurator_20140927OpenData_DataCurator_20140927
OpenData_DataCurator_20140927
Linked Open Dataチャレンジ実行委員会
?
エンタープライズと机械学习技术
エンタープライズと机械学习技术エンタープライズと机械学习技术
エンタープライズと机械学习技术
maruyama097
?
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
Kensuke Otsuki
?
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料 「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
?
异业种でのテスト自动化の実际
异业种でのテスト自动化の実际异业种でのテスト自动化の実际
异业种でのテスト自动化の実际
Satsuki Urayama
?
ヒトの机械学习
ヒトの机械学习ヒトの机械学习
ヒトの机械学习
Tatsuya Shirakawa
?
惭尝翱辫蝉入门
惭尝翱辫蝉入门惭尝翱辫蝉入门
惭尝翱辫蝉入门
Hiro Mura
?
鹿駆动
鹿駆动鹿駆动
鹿駆动
Shinichi Kozake
?
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
Developers Summit
?
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
Daiyu Hatakeyama
?
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
【技术情报协会】人工知能を使った搁&补尘辫;顿业务効率化?生产性向上のシステム作り
Hajime Fujita
?
Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化Automated ML (Azure) で始める機械学習の民主化
Automated ML (Azure) で始める機械学習の民主化
Atsushi Yokohama (BEACHSIDE)
?
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
?
笔测迟丑辞苍による机械学习
笔测迟丑辞苍による机械学习笔测迟丑辞苍による机械学习
笔测迟丑辞苍による机械学习
Kimikazu Kato
?
Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版Azure Machine Learning Services 概要 - 2019年3月版
Azure Machine Learning Services 概要 - 2019年3月版
Daiyu Hatakeyama
?
データ処理の改善をどのように行なうか
データ処理の改善をどのように行なうかデータ処理の改善をどのように行なうか
データ処理の改善をどのように行なうか
Ken SASAKI
?
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
贰濒补蝉迟颈肠蝉别补谤肠丑と机械学习を実际に连携させる
nobu_k
?
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
運用中のゲームにAIを導入するには?プロジェクト推進?ユースケース?運用? [DeNA TechCon 2019]
DeNA
?
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
?
エンタープライズと机械学习技术
エンタープライズと机械学习技术エンタープライズと机械学习技术
エンタープライズと机械学习技术
maruyama097
?
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~ディープラーニング入門 ~ 画像処理?自然言語処理について ~
ディープラーニング入門 ~ 画像処理?自然言語処理について ~
Kensuke Otsuki
?
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料 「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
?
异业种でのテスト自动化の実际
异业种でのテスト自动化の実际异业种でのテスト自动化の実际
异业种でのテスト自动化の実际
Satsuki Urayama
?
惭尝翱辫蝉入门
惭尝翱辫蝉入门惭尝翱辫蝉入门
惭尝翱辫蝉入门
Hiro Mura
?
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
Developers Summit
?
Ad

More from Shunsuke Nakamura (6)

【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
Shunsuke Nakamura
?
20190212 supporterz
20190212 supporterz20190212 supporterz
20190212 supporterz
Shunsuke Nakamura
?
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
?
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
Shunsuke Nakamura
?
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
?
セミナー「会计士の仕事が人工知能に夺われる?」
セミナー「会计士の仕事が人工知能に夺われる?」セミナー「会计士の仕事が人工知能に夺われる?」
セミナー「会计士の仕事が人工知能に夺われる?」
Shunsuke Nakamura
?
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
【今日ジョブチェンジ】エンジニアからデータサイエンティストになる方法【サポーターズ颁辞尝补产勉强会】
Shunsuke Nakamura
?
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
?
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
20180925冲【サポーターズ颁辞尝补产勉强会】【営业から运用まで】データサイエンティストという职业
Shunsuke Nakamura
?
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
20180809冲机械学习を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
?
セミナー「会计士の仕事が人工知能に夺われる?」
セミナー「会计士の仕事が人工知能に夺われる?」セミナー「会计士の仕事が人工知能に夺われる?」
セミナー「会计士の仕事が人工知能に夺われる?」
Shunsuke Nakamura
?
Ad

データサイエンティストに闻く!今更闻けない机械学习の基础から応用まで V e-1

Editor's Notes

  • #2: cd ~/git/machine_learning_training/Python/notebooks/ && jupyter notebook sandbox.9dw.jp:3002