狠狠撸

狠狠撸Share a Scribd company logo
AlteryxでKaggleに挑戦する
じょんすみす
自己紹介
? じょんすみす
? クラスメソッド株式会社 DI部
? どこにでもいる普通のアル中
? 札幌から来ました!
これ→
本日のテーマ
? Kaggleってご存知ですか?
本日のテーマ
? Kaggleってご存知ですか?
? 機械学習のコンペサイト
本日のテーマ
? KaggleにAlteryxで挑みます!
? 今回はTitanicに挑戦します
? Tutorial的なもの
? 乗客の情報から生存の有無を予測
まずは试しにやってみる
まずは试しにやってみる
データを见てみる
データを见てみる
データを见てみる
データを见てみる
データを见てみる
※ Y軸にJitter入れてます
あれ?実はそんなに関連性ない?
データを见てみる
なんとなくlogをとると、
Ageの値が小さいほうで
生存率が上がってるっぽい
他の変数との相関は微妙だったし
とりあえず欠損値には平均を入れて
18歳以上か否かのデータの有無で変わるか
見てみる
(欠損値の扱いは別途考える)
Ageの変換
平均値で埋めて
Ageの変換
いくつかの手法で試してみる
Ageの変換
Ageをそのまま使った場合
変換した場合
Ageの変換
Ageをそのまま使った場合
変換した場合
チャレンジ2回目
ここでもう1回やっている
Ageの推定
今回は他のサイトの情報を参考にする
Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感
(http://www.mirandora.com/?p=1804)
敬称と年齢に関係あるという性質を利用
(なぜそうしているかも直感的にわかりやすい)
※ 参考にしているのはこの記述のみで
実際の手法を利用しているわけではありません
Ageの推定
結果は変わらず。。
今後
? Ageの欠損値について
? 他にもやり方はいろいろあり、Discussionに欠損値の話はある
? https://www.kaggle.com/c/titanic/discussion/3189 など
? 年齢の分け方を18歳(日本基準の未成年)にしたが検証してない
? 機械学習のモデル選択?パラメータチューニング
? 他の手法を試してみるとかもやってない
? Alteryxでは実装されていない手法もある
? Age以外にも注目してみる
? nameなど直接使っていないの属性を利用
? SibSp, Parchに基づいて家族推定とかしたらまたなんかあるかも
まとめと所感
? Alteryxでもkaggleに挑める
? データを確認するための可視化
? 前処理?特徴抽出など
? アルゴリズム選択
? とはいえできないこともある
? Alteryxでは単一ツールでは実現できない手法が有効な場合
? RツールやRun Commnadツールで実現自体は可能
? Galleryをあされば誰かが作ってくれてるかも?

More Related Content

Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Editor's Notes

  1. 企業や研究機関などがデータを投稿 -> 実際にと期待問題とデータのセット データ分析な人たちがモデルの精度を争う -> 世界中の凄腕たちがライバル 優勝者には賞金も
  2. 予測は乗客IDとsurvivedの値を渡す すぐに結果がわかる 評価は正解率
  3. titanicは女性?子供の救助がまず優先され、その次に金持ちから順に(映画知識) →age, sex, fareのみでやってみる Sexは0, 1のダミー変数に展開 ロジスティック回帰(特にこれを選んだことに意味はない)
  4. スコア0.76077で5499位!(低い!)
  5. 各项目の意味はサイト上に记载されている
  6. Survivedの0と1の割合的に全部0にしても0.5以上になりそうですね Pclassは3が多い模様。死んだ人が多かったのと階級の下の人が多かったことには関係あるのかな? Ageは重要そうなのにnullが多い -> ここをどう補完するかがカギになりそう Cabinはほとんどnullなので使えないかも???(ちゃんと入れてるか否かとか使える?) その他、いろいろ -> SibSp, Parchは0が圧倒的に多いのでいったんおいとく(変数として使いはするが、ほかでよくしてから更なる精度向上に利用)
  7. 础驳别との间にあまり相関がない
  8. Pclassとの間に弱めの負の相関がある SibSpとも弱めの相関あり
  9. 辫肠濒补蝉蝉と微妙に相関あるし非线形な関係は见てないので推测は可能かも
  10. 指標は正解率だが、New Donorサンプルと同じ感じでAUCを出してみる
  11. たぶん未成年の人数自体が全体に対して少ないので、全体での平均に対してそんなに影响がない