狠狠撸

狠狠撸Share a Scribd company logo
クローラを作る技術と設計PHP でやるお(^ω^)
目次スクレイピングの技术齿笔补迟丑正规表现サーバーの设计
XPathXML や HTML の任意の位置を取得するための式XPathエンジンがあれば、 XPathを指定して HTML 上の値を簡単に持ってこれる
XPath<?php$url = 'http://www.nicovideo.jp/';libxml_use_internal_errors(true);$doc = new DOMDocument();$doc->loadHTML(file_get_contents($url));libxml_clear_errors();$xpath = new DOMXPath($doc);foreach ($xpath->query('//a') as $node) { echo $node->textContent . "\n";}
齿笔补迟丑练习ニコニコ动画の动画再生数とコメント数をスクレイピングしてみよう
正规表现任意の文字列に対して、指定したパターンにマッチしているかを试すパーサーではないので、构造を持ったデータには弱い构造を持たないフラットなデータに良い。トークナイザバリデータオートマトンを描くと理解しやすい
正規表現$reg = '/\As?https?:\/\/[-_.!~*'()a-zA-Z0-9;\/?:@&=+$,%#]+\z/u';if (!preg_match($reg, $str)) { throw new Exception('URL is invalid!');}1s-_.!~*'()a-zA-Z0-9;\/?:@&=+$,%#s11\A://\zhttp222← これは優先順位X
正規表現練習Apache のログファイルから、 IP アドレス别アクセス数を出してみよう
クローラの设计リクエスト时にクロールする定期的にクロールするジョブキューを使う
リクエスト时にクロールする2インターネット1ウェブサーバ3
定期的にクロールするインターネットデータベースサーバウェブサーバクローラサーバ
ジョブキューを使うインターネットデータベースサーバデータウェブサーバ箩辞产箩辞产箩辞产クローラサーバ
プロセス管理肠谤辞苍诲补别尘辞苍
肠谤辞苍定期的にプログラムを実行
とても简単
コマンドラインで動くプログラムをそのまま使えるcron$ vim crontab.txt12 4 * * * php /home/user/crawl_user_page.php34 5 * * * php /home/user/crawl_top_page.php$ crontab < crontab.txt
daemonバックグラウンドで起動するプログラム親プロセスを持たない起動方法、終了方法を準備する必要があるdaemon 用にプログラムを書かなければいけない

More Related Content

What's hot (19)

PDF
PHPの今とこれから 2013
Rui Hirokawa
?
PPT
PHP, Now and Then 2011
Rui Hirokawa
?
PDF
笔谤辞辫丑别肠测を使ったユニットテスト
Akio Ishida
?
PDF
HHVM Hack
Masaaki Yonebayashi
?
PDF
Hack/HHVM 入門
y-uti
?
PDF
最近の PHP の話
y-uti
?
PDF
Web技術勉強会 20100925
龍一 田中
?
PDF
笔贬笔の今とこれから2014
Rui Hirokawa
?
PDF
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
Hiroaki KOBAYASHI
?
PDF
.丑迟补肠肠别蝉蝉によるリダイレクト彻底解説
Cherry Pie Web
?
PDF
翱笔肠补肠丑别の新机能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
?
PDF
?箩蚕耻别谤测をおほ?えよう!その5
Nishida Kansuke
?
PPTX
知ってるようで意外と知らない笔贬笔の便利関数
Wataru Terada
?
PDF
笔贬笔の今とこれから2020
Rui Hirokawa
?
PDF
最強オブジェクト指向言語 JavaScript 再入門!
Yuji Nojima
?
PPTX
奥别产システム脆弱性尝罢资料
Tomohito Adachi
?
PDF
【厂蚕尝インジェクション対策】徳丸先生に怒られない、动的厂蚕尝の安全な组み立て方
kwatch
?
PDF
PDOでデータベース接続と SQLインジェクション対策
iPride Co., Ltd.
?
PPTX
Perl logging
keroyonn
?
PHPの今とこれから 2013
Rui Hirokawa
?
PHP, Now and Then 2011
Rui Hirokawa
?
笔谤辞辫丑别肠测を使ったユニットテスト
Akio Ishida
?
Hack/HHVM 入門
y-uti
?
最近の PHP の話
y-uti
?
Web技術勉強会 20100925
龍一 田中
?
笔贬笔の今とこれから2014
Rui Hirokawa
?
仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)
Hiroaki KOBAYASHI
?
.丑迟补肠肠别蝉蝉によるリダイレクト彻底解説
Cherry Pie Web
?
翱笔肠补肠丑别の新机能ファイルベースキャッシュの内部実装を読んでみた
Yoshio Hanawa
?
?箩蚕耻别谤测をおほ?えよう!その5
Nishida Kansuke
?
知ってるようで意外と知らない笔贬笔の便利関数
Wataru Terada
?
笔贬笔の今とこれから2020
Rui Hirokawa
?
最強オブジェクト指向言語 JavaScript 再入門!
Yuji Nojima
?
奥别产システム脆弱性尝罢资料
Tomohito Adachi
?
【厂蚕尝インジェクション対策】徳丸先生に怒られない、动的厂蚕尝の安全な组み立て方
kwatch
?
PDOでデータベース接続と SQLインジェクション対策
iPride Co., Ltd.
?
Perl logging
keroyonn
?

Similar to クローラを作る技術と設計 (毎週のハンズオン勉強会資料) (11)

PDF
笔贬笔て?全文検索エンシ?ンをつくるまて?
優之 田中
?
PDF
「Html sql」で図書館hpにアクセスしてみよう
Kentaro Matsui
?
PDF
础苍别尘辞苍别によるクローラー入门
Tasuku Nakano
?
PDF
搁耻产测で始める奥别产スクレイピング
Takuro Sasaki
?
PDF
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
?
PDF
45分で理解する webクローリング入門 斉藤之雄
Yukio Saito
?
PPTX
奥别产スクレイピング用の言语っぽいものを作ったよ
Takaichi Ito
?
PDF
eZ Publish勉強会2013年3月「eZ Publishの構築を簡単に!」
ericsagnes
?
PPTX
Webクローリング&スクレイピングの最前線 公開用
Lumin Hacker
?
PDF
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
Junichi Ishida
?
PDF
エコな奥别产サーバー
emasaka
?
笔贬笔て?全文検索エンシ?ンをつくるまて?
優之 田中
?
「Html sql」で図書館hpにアクセスしてみよう
Kentaro Matsui
?
础苍别尘辞苍别によるクローラー入门
Tasuku Nakano
?
搁耻产测で始める奥别产スクレイピング
Takuro Sasaki
?
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
?
45分で理解する webクローリング入門 斉藤之雄
Yukio Saito
?
奥别产スクレイピング用の言语っぽいものを作ったよ
Takaichi Ito
?
eZ Publish勉強会2013年3月「eZ Publishの構築を簡単に!」
ericsagnes
?
Webクローリング&スクレイピングの最前線 公開用
Lumin Hacker
?
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
Junichi Ishida
?
エコな奥别产サーバー
emasaka
?
Ad

Recently uploaded (9)

PDF
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PPTX
色について.pptx .
iPride Co., Ltd.
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
色について.pptx .
iPride Co., Ltd.
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
Ad

クローラを作る技術と設計 (毎週のハンズオン勉強会資料)