狠狠撸
Submit Search
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
?
Download as PPTX, PDF
?
0 likes
?
1,257 views
_
__john_smith__
Follow
Alteryxユーザグループ第1回勉強会のLT資料です #alteryx #alteryx_ug
Read less
Read more
1 of 22
Download now
Download to read offline
More Related Content
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
1.
AlteryxでKaggleに挑戦する じょんすみす
2.
自己紹介 ? じょんすみす ? クラスメソッド株式会社
DI部 ? どこにでもいる普通のアル中 ? 札幌から来ました! これ→
3.
本日のテーマ ? Kaggleってご存知ですか?
4.
本日のテーマ ? Kaggleってご存知ですか? ? 機械学習のコンペサイト
5.
本日のテーマ ? KaggleにAlteryxで挑みます! ? 今回はTitanicに挑戦します ?
Tutorial的なもの ? 乗客の情報から生存の有無を予測
6.
まずは试しにやってみる
7.
まずは试しにやってみる
8.
データを见てみる
9.
データを见てみる
10.
データを见てみる
11.
データを见てみる
12.
データを见てみる ※ Y軸にJitter入れてます あれ?実はそんなに関連性ない?
13.
データを见てみる なんとなくlogをとると、 Ageの値が小さいほうで 生存率が上がってるっぽい 他の変数との相関は微妙だったし とりあえず欠損値には平均を入れて 18歳以上か否かのデータの有無で変わるか 見てみる (欠損値の扱いは別途考える)
14.
Ageの変換 平均値で埋めて
15.
Ageの変換 いくつかの手法で試してみる
16.
Ageの変換 Ageをそのまま使った場合 変換した場合
17.
Ageの変換 Ageをそのまま使った場合 変換した場合
18.
チャレンジ2回目 ここでもう1回やっている
19.
Ageの推定 今回は他のサイトの情報を参考にする Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感 (http://www.mirandora.com/?p=1804) 敬称と年齢に関係あるという性質を利用 (なぜそうしているかも直感的にわかりやすい) ※ 参考にしているのはこの記述のみで 実際の手法を利用しているわけではありません
20.
Ageの推定 結果は変わらず。。
21.
今後 ? Ageの欠損値について ? 他にもやり方はいろいろあり、Discussionに欠損値の話はある ?
https://www.kaggle.com/c/titanic/discussion/3189 など ? 年齢の分け方を18歳(日本基準の未成年)にしたが検証してない ? 機械学習のモデル選択?パラメータチューニング ? 他の手法を試してみるとかもやってない ? Alteryxでは実装されていない手法もある ? Age以外にも注目してみる ? nameなど直接使っていないの属性を利用 ? SibSp, Parchに基づいて家族推定とかしたらまたなんかあるかも
22.
まとめと所感 ? Alteryxでもkaggleに挑める ? データを確認するための可視化 ?
前処理?特徴抽出など ? アルゴリズム選択 ? とはいえできないこともある ? Alteryxでは単一ツールでは実現できない手法が有効な場合 ? RツールやRun Commnadツールで実現自体は可能 ? Galleryをあされば誰かが作ってくれてるかも?
Editor's Notes
企業や研究機関などがデータを投稿 -> 実際にと期待問題とデータのセット データ分析な人たちがモデルの精度を争う -> 世界中の凄腕たちがライバル 優勝者には賞金も
予測は乗客IDとsurvivedの値を渡す すぐに結果がわかる 評価は正解率
titanicは女性?子供の救助がまず優先され、その次に金持ちから順に(映画知識) →age, sex, fareのみでやってみる Sexは0, 1のダミー変数に展開 ロジスティック回帰(特にこれを選んだことに意味はない)
スコア0.76077で5499位!(低い!)
各项目の意味はサイト上に记载されている
Survivedの0と1の割合的に全部0にしても0.5以上になりそうですね Pclassは3が多い模様。死んだ人が多かったのと階級の下の人が多かったことには関係あるのかな? Ageは重要そうなのにnullが多い -> ここをどう補完するかがカギになりそう Cabinはほとんどnullなので使えないかも???(ちゃんと入れてるか否かとか使える?) その他、いろいろ -> SibSp, Parchは0が圧倒的に多いのでいったんおいとく(変数として使いはするが、ほかでよくしてから更なる精度向上に利用)
础驳别との间にあまり相関がない
Pclassとの間に弱めの負の相関がある SibSpとも弱めの相関あり
辫肠濒补蝉蝉と微妙に相関あるし非线形な関係は见てないので推测は可能かも
指標は正解率だが、New Donorサンプルと同じ感じでAUCを出してみる
たぶん未成年の人数自体が全体に対して少ないので、全体での平均に対してそんなに影响がない
Download