際際滷

際際滷Share a Scribd company logo
Nutch dan Solr Membangun Search Engine Sendiri dengan Open Source
2 Nopember 2011
Bowo Prasetyo
http://www.scribd.com/prazjp
http://www.slideshare.net/bowoprasetyo/
Prasyarat Tutorial  ini menggunakan software berikut: Unix-like OS
GNU/Linux (http://www.gnu.org/distros/common-distros.html)
Cygwin ( http://www.cygwin.com/ )
Java 1.6 ( http://java.com/ )
Nutch 1.3 ( http://nutch.apache.org/ )
Solr 3.4.0 ( http://lucene.apache.org/solr/ )
Mesin Penjelajah Nutch Nutch adalah Software penjelajah web (web crawler)
Open source
Berfitur lengkap, dengan fungsi spesifik web:
database link-graph,
parser untuk HTML dan format dokumen lainnya, dll.
Mesin Penjelajah Nutch Nutch 1.3 didesain untuk bekerjasama dengan:  Solr, platform pencari enterprize yang dibangun di atas Lucene Java, dan
Hadoop, framework software yang mendukung aplikasi terdistribusi yang intensif data.
Arsitektur Nutch Segments Searcher CrawlDB LinkDB Index updatedb Crawler generate inject Url bibit fetch & parse invertlinks index Siklus penjelajahan Solr
Arsitektur Nutch  Komponen Url bibit: daftar url untuk mengisi CrawlDB pertama kali.
CrawlDB: database yang berisi semua url baik yang sudah di fetch  maupun belum.
Segments: terdiri dari segmen-segmen, yaitu database yang berisi satu set url-url (yang di fetch  sebagai satu kesatuan), konten ( raw / parsed ),  outlink  dll.
LinkDB: database yang berisi daftar link (yang diketahui) ke setiap url.
Arsitektur Nutch  Komponen Crawler/fetcher: program untuk me request  halaman web, mem parse  konten  dan mengekstrak link darinya.
Solr, platform pencari enterprize yang berisi: S earcher: program untuk menemukan dokumen berdasarkan query.
In dex: database yang berisi indeks dari CrawlDB, Segments dan LinkDB.
Arsitektur Nutch  Alur Proses inject : Url bibit di inject  ke dalam database CrawlDB.
generate : Segmen baru yang akan di fetch ,  di generate  dari CrawlDB ke dalam database Segments.
fetch & parse : Crawler mem fetch  halaman web segmen, kontennya di parse  dan disimpan kembali ke dalam segmen tersebut.
updatedb : CrawlDB di update  dengan url-url baru dari segmen yang sudah di fetch .
Lakukan  2~4  berulang-ulang sesuai keperluan.
Arsitektur Nutch  Alur Proses invertlinks : Link dari segmen yang sudah di fetch  dan di parse , di invert  ke dalam database LinkDB.
index : Solr mengindeks database CrawlDB, Segments dan LinkDB ke dalam database Index.
Searcher Solr melakukan pencarian terhadap indeks.
Penjelajahan dengan Nutch Penjelajahan Sederhana
Peng install an Nutch Yang diperlukan: Java 1.6.x-up, baik yang berasal dari Sun atau IBM.
Kapasitas disk skala gigabyte atau lebih
Koneksi internet kecepatan tinggi Download distribusi binari Nutch 1.3.

More Related Content

Nutch dan Solr