Dokumen tersebut menjelaskan cara membangun mesin pencari sendiri menggunakan perangkat lunak sumber terbuka Nutch dan Solr. Langkah-langkahnya meliputi penginstalan Nutch dan Solr, konfigurasi komponen seperti URL bibit dan filter, melakukan penjelajahan web dengan Nutch, memindeks hasilnya ke dalam Solr, serta melakukan pencarian di Solr.
1 of 38
Downloaded 48 times
More Related Content
Nutch dan Solr
1. Nutch dan Solr Membangun Search Engine Sendiri dengan Open Source
22. Segments: terdiri dari segmen-segmen, yaitu database yang berisi satu set url-url (yang di fetch sebagai satu kesatuan), konten ( raw / parsed ), outlink dll.
43. Peng install an Nutch Akan ditampilkan petunjuk penggunaan: Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step crawler for intranets readdb read / dump crawl db convdb convert crawl db from pre-0.9 format mergedb merge crawldb-s, with optional filtering readlinkdb read / dump link db inject inject new urls into the database generate generate new segments to fetch from crawl db freegen generate new segments to fetch from text files fetch fetch a segment's pages ...
55. Penyaring ( conf/regex-urlfilter.txt ) # Each non-comment, non-blank line contains a regular expression # prefixed by '+' or '-'. The first matching pattern in the file # determines whether a URL is included or ignored. If no pattern # matches, the URL is ignored. # skip file:, ftp:, & mailto: urls -^(file|ftp|mailto): # skip image and other suffixes we can't yet parse -(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png|PNG)$ # skip URLs containing certain characters as probable queries, etc. # -[?*!@=] # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*)*id/ # skip everything else -.
71. Penjelajahan Sederhana Akan ditampilkan statistik seperti berikut: CrawlDb statistics start: crawldir2/crawldb Statistics for CrawlDb: crawldir2/crawldb TOTAL urls: 1172 retry 0: 1168 retry 1: 4 min score: 0.0 avg score: 0.012825939 max score: 1.095
72. Penjelajahan Sederhana status 1 (db_unfetched): 968 status 2 (db_fetched): 171 status 3 (db_gone): 12 status 4 (db_redir_temp): 8 status 5 (db_redir_perm): 13 CrawlDb statistics: done
95. Membuat Konten Terlihat Default schema.xml akan membuat halaman web dapat dicari, tetapi kontennya tidak dapat dilihat.
96. Untuk membuat konten terlihat, modifikasi field content pada schema.xml menjadi: <field name="content" type="text" stored="true" indexed="true"/>
99. ja va -jar start.jar Run Solr Index command bin/nutch solrindex http://127.0.0.1:8983/solr/ <crawldir>/crawldb <crawldir>/linkdb <crawldir>/segments/*