狠狠撸

狠狠撸Share a Scribd company logo
Seleniumで
ニコニコ動画をスクレイピング
TeraBytes
スクレイピングの際の注意
今回行った成果は、以下のURLを理解したうえで行いました。
当成果に対して何か問題があればご連絡お願いします。
http://qiita.com/nezuq/items/c5e827e1827e7cb29011
http://qiita.com/nezuq/items/3cc9772118ad112c18dc
https://account.nicovideo.jp/rules/account
コメントを解析したい
これ
どうやってとってくるか?
Webスクレイピングで取得
ウェブページから画像やテキストのデータを抜き取ること
スクレイピングも楽にできます
既存ライブラリ?APIの弱み
動的なウェブページに弱い
欲しいHTML 取ってくるHTML
Selenium
Seleniumって?
Webブラウザを自動操作してくれる
IDEやAPIを提供
Webアプリのテストに使われるが
こいつでWebスクレイピングします
コメント抽出
自动で动画ページへ移动
自动で动画ページへ移动
Seleniumドライバーの定義
動画ページにアクセス
ログインフォーム自動入力
コメントをデータベースに保存
コメントをMongoに保存
DOMの探索(読み込み待ち)
コメントの抽出
ある程度集まったので解析
前処理(形態素解析)
python + mecabで形態素解析
mecab-ipadic-neologdを使用
neologd適用従来のmecab
人名やサブカルの解析に強い
再生时间1:00までの解析结果
まとめ
Seleniumなら動的ページに対してもスクレイピングできる
スクレイピングの参考にしてください
ごちうさ難民は時事に強い

More Related Content

Seleniumで データスクレイピング

Editor's Notes

  1. スクレイピングって何? 何でデータ集めるの? 公開データじゃダメなの? <重要>何でseleniumでやるの? ○ 1.スクレイピングって何? 2.seleniumって何? 3.selenium vs 既存 4.ごちうさ難民のデータを集めました 5.機械学習したい人はseleniumもご検討ください 1.ごちうさ難民の人工知能作りたい 2.ごちうさって何? 3.ドワンゴの公開データではダメ ならばseleniumだ 4.