狠狠撸
Submit Search
第3回Webスクレイピング勉強会@東京 happyou.info
?
Download as PPTX, PDF
?
5 likes
?
8,145 views
S
Shogo Okamoto
Follow
Crawling and scraping tool to retrieve information from website.
Read less
Read more
1 of 12
Download now
Downloaded 15 times
More Related Content
第3回Webスクレイピング勉強会@東京 happyou.info
1.
Webスクレイピング勉強会 2014/10/26 私が開発してるhappyou.infoに
ついて
2.
自己紹介 岡本将吾@shogookamoto フリーランス
今回は搁厂厂フィードに偏り
3.
様々なスクレイピングツール マニュアル指定型(XPath, マウス指定)
オートマチック(差分、繰り返し、日付、リンク?FeedBeatera ?Feed43 ?myrss.jp ?RSSクリエイター ?gooRSS生成 ?XpathFeed ?Feedity.com ?Page2FeedAPI ?Page2RSS ?Google Reader track change ?はてなアンテナ ?なんでもRSS ?Needlebase ?Open-dapper ?Kimonolabs ?Import.io ?ScraperWiki ?OutWit Hub ?Grepsr ?Mozenda ●a.k.a web scraping, web wrapper.
4.
スクレイピングは大変 マニュアル指定サイトごとに手作業 が発生。規模拡大できない。
オートマティック結果の精度が低い 。結局人間が読まなければならない。 RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
5.
高精度 低精度 スクレイピングは大変
?Page2FeedAPI ?なんでもRSS ?Page2RSS ?Google Reader track change ?FeedBeater ?Feed43 ?myrss.jp ?XpathFeed ?Needlebase ?Open-dapper ?Kimonolabs ?Import.io ?ScraperWiki ?OutWit Hub マニュアル指定自動抽出
6.
現状の人類の限界 ウェブからマシンリーダブルな 情報を抽出するのに、人手が必要
●はなしをおおきく
7.
高精度 低精度 スクレイピングは大変
?80legs ?Kimonolabs ?Import.io ?ScraperWiki ?OutWit Hub Final Scraper ?Page2FeedAPI ?はてなアンテナ ?Page2RSS ?Google Reader track change ?FeedBeater ?Feed43 ?myrss.jp ?XpathFeed ?scrapingHub マニュアル指定自動抽出
8.
Final Scraperのウェブ版
9.
実際の自動スクレイピング(1) ●http://www.happyou.info/fs/ja/sample.php
10.
実際の自動スクレイピング(2) ●http://www.happyou.info/fs/ja/sample.php
11.
Happyou.infoとは何か 政府機関と全上場企業 をスクレイピング
http://www.happyou.info/ja/site/fps タグをつけて分類WebAPI https://zaisoft.sakura.ne.jp/happyou/webappv1/index.php ●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
12.
もしご興味があれば使ってください 最後までお聞きいただき ありがとうございました
happyou.info ●まだ完全にできてない
Download