In diesem Tutorial erkläre ich euch Schritt für Schritt wie ihr eine eigene Suchmaschine aufbauen könnt. Dafür benutzte ich die Linux-Distribution Debian 8.
1. Zuerst müssen die Pakete (Solr 4.10.4 und Nutch 1.9-bin) heruntergeladen und entpackt werden
– unzip solr
– unzip apache-nutch
2. Danach muss die Schema-Datei anpasst werden
– SOLR: schema.xml umbenennen zu schema.xml.org
– NUTCH: schema-solr4.xml nach solr/example/solr/collection1/conf und umbennenen in schema.xml
– Zeile einfügen in der neuen schema.xml-Datei: field name=“_version_“ type=“long“ indexed=“true“ stored=“true“/
3. Dann die Einstellungen in nutch-site.xml verändern
<property>
<name>http.agent.name</name>
<value>Nutch Web-Crawler</value>
</property>
<name>fetcher.server.delay</name>
<value>0.5</value>
</property>
<name>http.timeout</name>
<value>30000</value>
</property>
<name>http.content.limit</name>
<value>131072</value>
</property>
4. Seed-Liste erstellen
– Erstellen eines Ordnes „urls“ und seed.txt im Verzeichnis (Nutch/conf)
– URLs eintragen pro Zeile eine URL: http://erassoft.de
5. Domain Filter einstellen in regex-urlfilter.xml
– Nur diese Domain und alle Subdomains crawlen:
+^http://|https://[a-z0-9]*\.*erassoft.d
– Deaktivieren dieser Zeile, damit URLs mit ? und = in der URL nicht geblockt werden – Notwendig für URLs mit datei.php?id=blabla
#-[?*!@=]
6. Umgebungsvariablen anpassen zur JAVA Installation – Java Umgebungsvariablen
– env
– export JAVA_HOME=/usr/lib/jvm/default-java
7. Solr und Nutch starten
– bin/solr start
– bin/crawl urls erassoft http://localhost:8983/solr/ 999
8. Nach Webseiten suchen
– Öffnen der URL http://localhost:8983/solr
– In collection1 und Query nach Webseiten suchen
Und schon ist die eigene Suchmaschine Einsetzbar. DIese dient hauptsächlich für Entwickler einer eigenen Professionellen und unabhängigen Suchmaschine. Es gibt noch wesentlich einfachere Suchmaschinen, die eingesetzt werden können. Mehr dazu kommt demnächst.