�ݺ�ߣ

1. Nutch dan Solr Membangun Search Engine Sendiri dengan Open Source

2. 2 Nopember 2011

3. Bowo Prasetyo

4. http://www.scribd.com/prazjp

5. http://www.slideshare.net/bowoprasetyo/

6. Prasyarat Tutorial ini menggunakan software berikut: Unix-like OS

7. GNU/Linux (http://www.gnu.org/distros/common-distros.html)

8. Cygwin ( http://www.cygwin.com/ )

9. Java 1.6 ( http://java.com/ )

10. Nutch 1.3 ( http://nutch.apache.org/ )

11. Solr 3.4.0 ( http://lucene.apache.org/solr/ )

12. Mesin Penjelajah Nutch Nutch adalah Software penjelajah web (web crawler)

13. Open source

14. Berfitur lengkap, dengan fungsi spesifik web:

15. database link-graph,

16. parser untuk HTML dan format dokumen lainnya, dll.

17. Mesin Penjelajah Nutch Nutch 1.3 didesain untuk bekerjasama dengan: Solr, platform pencari enterprize yang dibangun di atas Lucene Java, dan

18. Hadoop, framework software yang mendukung aplikasi terdistribusi yang intensif data.

19. Arsitektur Nutch Segments Searcher CrawlDB LinkDB Index updatedb Crawler generate inject Url bibit fetch & parse invertlinks index Siklus penjelajahan Solr

20. Arsitektur Nutch – Komponen Url bibit: daftar url untuk mengisi CrawlDB pertama kali.

21. CrawlDB: database yang berisi semua url baik yang sudah di fetch maupun belum.

22. Segments: terdiri dari segmen-segmen, yaitu database yang berisi satu set url-url (yang di fetch sebagai satu kesatuan), konten ( raw / parsed ), outlink dll.

23. LinkDB: database yang berisi daftar link (yang diketahui) ke setiap url.

24. Arsitektur Nutch – Komponen Crawler/fetcher: program untuk me request halaman web, mem parse konten dan mengekstrak link darinya.

25. Solr, platform pencari enterprize yang berisi: S earcher: program untuk menemukan dokumen berdasarkan query.

26. In dex: database yang berisi indeks dari CrawlDB, Segments dan LinkDB.

27. Arsitektur Nutch – Alur Proses inject : Url bibit di inject ke dalam database CrawlDB.

28. generate : Segmen baru yang akan di fetch , di generate dari CrawlDB ke dalam database Segments.

29. fetch & parse : Crawler mem fetch halaman web segmen, kontennya di parse dan disimpan kembali ke dalam segmen tersebut.

30. updatedb : CrawlDB di update dengan url-url baru dari segmen yang sudah di fetch .

31. Lakukan 2~4 berulang-ulang sesuai keperluan.

32. Arsitektur Nutch – Alur Proses invertlinks : Link dari segmen yang sudah di fetch dan di parse , di invert ke dalam database LinkDB.

33. index : Solr mengindeks database CrawlDB, Segments dan LinkDB ke dalam database Index.

34. Searcher Solr melakukan pencarian terhadap indeks.

35. Penjelajahan dengan Nutch Penjelajahan Sederhana

36. Peng install an Nutch Yang diperlukan: Java 1.6.x-up, baik yang berasal dari Sun atau IBM.

37. Kapasitas disk skala gigabyte atau lebih

38. Koneksi internet kecepatan tinggi Download distribusi binari Nutch 1.3.

39. http://nutch.apache.org/

40. Peng install an Nutch Peng install an Unzip distribusi binari Nutch ke $HOME/nutch-1.3 ← <NUTCH_HOME>

41. Set JAVA_HOME=<path_to_jre_or_jdk> Cek program Nutch dengan cd <NUTCH_HOME>/runtime/local ← <NUTCH_RUNTIME_HOME>

42. bin/nutch

43. Peng install an Nutch Akan ditampilkan petunjuk penggunaan: Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step crawler for intranets readdb read / dump crawl db convdb convert crawl db from pre-0.9 format mergedb merge crawldb-s, with optional filtering readlinkdb read / dump link db inject inject new urls into the database generate generate new segments to fetch from crawl db freegen generate new segments to fetch from text files fetch fetch a segment's pages ...

44. File Konfigurasi <urls>/<plain> : url bibit

45. conf/regex-urlfilter.txt : penyaring url

46. conf/nutch-site.xml : User agent

47. Proxy

48. URL Bibit ( urls/id.txt )‏ http://www.bppt.go.id/ http://www.batan.go.id/

49. http://www.lipi.go.id/

50. http://www.ristek.go.id/

51. http://www.pom.go.id/

55. Penyaring ( conf/regex-urlfilter.txt ) # Each non-comment, non-blank line contains a regular expression # prefixed by '+' or '-'. The first matching pattern in the file # determines whether a URL is included or ignored. If no pattern # matches, the URL is ignored. # skip file:, ftp:, & mailto: urls -^(file|ftp|mailto): # skip image and other suffixes we can't yet parse -(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png|PNG)$ # skip URLs containing certain characters as probable queries, etc. # -[?*!@=] # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*)*id/ # skip everything else -.

56. User Agent ( conf/nutch-site.xml )‏ <property> <name>http.agent.name</name> <value>BPPT PTIK</value> <description>BPPT PTIK</description> </property> <property> <name>http.agent.description</name> <value>BPPT - Nutch experiment</value> <description> BPPT - Nutch experiment </description> </property>

57. Proxy ( conf/nutch-site.xml )‏ <property> <name>http.proxy.host</name> <value>192.73.25.1</value> <description>The proxy hostname.</description> </property> <property> <name>http.proxy.port</name> <value>8080</value> <description>The proxy port.</description> </property>

58. Penjelajahan Sederhana Penjelajahan sederhana dilakukan dengan perintah bin/nutch crawl

59. Perintah crawl akan melakukan alur proses berikut secara otomatis: inject

60. generate

61. fetch & parse

62. updatedb

63. invertlinks Diulang-ulang sebanyak depth

64. Penjelajahan Sederhana <urls> : direktori url bibit

65. <crawldir> : direktori hasil penjelajahan

66. d : kedalaman penjelajahan

67. n : jumlah halaman maksimal di setiap level bin/nutch crawl <urls> -dir <crawldir> -depth d -topN n

68. Penjelajahan Sederhana Akan dihasilkan direktori berikut: < crawldir>/crawldb

69. <cr awldir>/segments

70. <crawldir>/linkdb Cek hasil penjelajahan dengan: bin/nutch readdb < crawldir>/crawldb -stats

71. Penjelajahan Sederhana Akan ditampilkan statistik seperti berikut: CrawlDb statistics start: crawldir2/crawldb Statistics for CrawlDb: crawldir2/crawldb TOTAL urls: 1172 retry 0: 1168 retry 1: 4 min score: 0.0 avg score: 0.012825939 max score: 1.095

72. Penjelajahan Sederhana status 1 (db_unfetched): 968 status 2 (db_fetched): 171 status 3 (db_gone): 12 status 4 (db_redir_temp): 8 status 5 (db_redir_perm): 13 CrawlDb statistics: done

73. Pencarian dengan Solr

74. Peng install an Solr Download distribusi binari Solr dari http://lucene.apache.org/solr/

75. Unzip distribusi Solr ke $HOME/apache-solr-3.X ← <SOLR_HOME>

76. Coba program Solr dengan: cd <SOLR_HOME>/example

77. java -jar start.jar

78. Buka http://localhost:8983/solr/admin/

79. Peng install an Solr

80. Nutch – Solr Integration Copy schema.xml Nutch ke Solr cp <NUTCH_RUNTIME_HOME>/conf/schema.xml <SOLR_HOME>/example/solr/conf/ Restart Solr cd <SOLR_HOME>/example/

81. (Kill start.jar )

82. ja va -jar start.jar

83. Nutch – Solr Integration Run Solr Index command bin/nutch solrindex http://127.0.0.1:8983/solr/ <crawldir>/crawldb <crawldir>/linkdb <crawldir>/segments/*

84. SolrIndexer: starting at 2011-11-02 11:46:53

85. SolrIndexer: finished at 2011-11-02 11:47:01, elapsed: 00:00:07

86. Nutch – Solr Integration Cek hasil indexing , buka http://localhost:8983/solr/admin/stats.jsp

87. Cek di bawah tabel Core -> name: Searcher -> stats: numDocs harus bernilai lebih dari 0.

88. Nutch – Solr Integration

89. Pencarian dengan Solr Buka http://localhost:8983/solr/admin/

90. Di dalam tabel Make a Query -> Query String: ... masukkan kata kunci mis. bppt

91. Klik Search

92. By default, hasil pencarian akan dikembalikan dalam format XML.

95. Membuat Konten Terlihat Default schema.xml akan membuat halaman web dapat dicari, tetapi kontennya tidak dapat dilihat.

96. Untuk membuat konten terlihat, modifikasi field content pada schema.xml menjadi: <field name="content" type="text" stored="true" indexed="true"/>

97. Membuat Konten Terlihat Restart Solr cd <SOLR_HOME>/example/

98. (Kill start.jar )

99. ja va -jar start.jar Run Solr Index command bin/nutch solrindex http://127.0.0.1:8983/solr/ <crawldir>/crawldb <crawldir>/linkdb <crawldir>/segments/*

100. Membuat Konten Terlihat

101. Membuat Konten Terlihat

102. Referensi NutchTutorial http://wiki.apache.org/nutch/NutchTutorial

�ݺ�ߣ

Nutch dan Solr

More Related Content

Nutch dan Solr