狠狠撸

Webスクレイピング勉強会
2014/10/26
私が開発してるhappyou.infoに
ついて

自己紹介
岡本将吾@shogookamoto
フリーランス
今回は搁厂厂フィードに偏り

様々なスクレイピングツール
マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンク?FeedBeatera
?Feed43
?myrss.jp
?RSSクリエイター
?gooRSS生成
?XpathFeed
?Feedity.com
?Page2FeedAPI
?Page2RSS
?Google Reader track change
?はてなアンテナ
?なんでもRSS
?Needlebase
?Open-dapper
?Kimonolabs
?Import.io
?ScraperWiki
?OutWit Hub
?Grepsr
?Mozenda
●a.k.a web scraping, web wrapper.

スクレイピングは大変
マニュアル指定サイトごとに手作業
が発生。規模拡大できない。
オートマティック結果の精度が低い
。結局人間が読まなければならない。
RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。

高精度
低精度
?Page2FeedAPI
?なんでもRSS
?Page2RSS
?FeedBeater
?Feed43
?myrss.jp
?XpathFeed
?Needlebase
?Open-dapper
?Kimonolabs
?Import.io
?ScraperWiki
?OutWit Hub
マニュアル指定自動抽出

現状の人類の限界
ウェブからマシンリーダブルな
情報を抽出するのに、人手が必要
●はなしをおおきく

高精度
低精度
?80legs
?Kimonolabs
?Import.io
?ScraperWiki
?OutWit Hub Final Scraper
?Page2FeedAPI
?はてなアンテナ
?Page2RSS
?FeedBeater
?Feed43
?myrss.jp
?XpathFeed
?scrapingHub
マニュアル指定自動抽出

実際の自動スクレイピング(1)
●http://www.happyou.info/fs/ja/sample.php

実際の自動スクレイピング(2)
●http://www.happyou.info/fs/ja/sample.php

Happyou.infoとは何か
政府機関と全上場企業
をスクレイピング
http://www.happyou.info/ja/site/fps
タグをつけて分類WebAPI
https://zaisoft.sakura.ne.jp/happyou/webappv1/index.php
●政府機関はリストがなくコンプリートできない。地方自治体は出来る。

もしご興味があれば使ってください
最後までお聞きいただき
ありがとうございました
happyou.info
●まだ完全にできてない

狠狠撸

第3回Webスクレイピング勉強会@東京 happyou.info

More Related Content

第3回Webスクレイピング勉強会@東京 happyou.info