狠狠撸

狠狠撸Share a Scribd company logo
Webスクレイピング勉強会 
2014/10/26 
私が開発してるhappyou.infoに 
ついて
自己紹介 
岡本将吾@shogookamoto 
フリーランス 
今回は搁厂厂フィードに偏り
様々なスクレイピングツール 
マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンク?FeedBeatera 
?Feed43 
?myrss.jp 
?RSSクリエイター 
?gooRSS生成 
?XpathFeed 
?Feedity.com 
?Page2FeedAPI 
?Page2RSS 
?Google Reader track change 
?はてなアンテナ 
?なんでもRSS 
?Needlebase 
?Open-dapper 
?Kimonolabs 
?Import.io 
?ScraperWiki 
?OutWit Hub 
?Grepsr 
?Mozenda 
●a.k.a web scraping, web wrapper.
スクレイピングは大変 
マニュアル指定サイトごとに手作業 
が発生。規模拡大できない。 
オートマティック結果の精度が低い 
。結局人間が読まなければならない。 
RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
高精度 
低精度 
スクレイピングは大変 
?Page2FeedAPI 
?なんでもRSS 
?Page2RSS 
?Google Reader track change 
?FeedBeater 
?Feed43 
?myrss.jp 
?XpathFeed 
?Needlebase 
?Open-dapper 
?Kimonolabs 
?Import.io 
?ScraperWiki 
?OutWit Hub 
マニュアル指定自動抽出
現状の人類の限界 
ウェブからマシンリーダブルな 
情報を抽出するのに、人手が必要 
●はなしをおおきく
高精度 
低精度 
スクレイピングは大変 
?80legs 
?Kimonolabs 
?Import.io 
?ScraperWiki 
?OutWit Hub Final Scraper 
?Page2FeedAPI 
?はてなアンテナ 
?Page2RSS 
?Google Reader track change 
?FeedBeater 
?Feed43 
?myrss.jp 
?XpathFeed 
?scrapingHub 
マニュアル指定自動抽出
Final Scraperのウェブ版
実際の自動スクレイピング(1) 
●http://www.happyou.info/fs/ja/sample.php
実際の自動スクレイピング(2) 
●http://www.happyou.info/fs/ja/sample.php
Happyou.infoとは何か 
政府機関と全上場企業 
をスクレイピング 
http://www.happyou.info/ja/site/fps 
タグをつけて分類WebAPI 
https://zaisoft.sakura.ne.jp/happyou/webappv1/index.php 
●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
もしご興味があれば使ってください 
最後までお聞きいただき 
ありがとうございました 
happyou.info 
●まだ完全にできてない

More Related Content

第3回Webスクレイピング勉強会@東京 happyou.info