Zwischen oben und unten - RETIRED » Suchmaschine http://www.keepnet.de/blog Mein Alltag in Edewecht (Norden) und Kassel (relativer Süden) Thu, 11 Feb 2010 17:03:21 +0000 http://wordpress.org/?v=2.8.5 en hourly 1 Such doch selber! http://www.keepnet.de/blog/2009/05/27/such-doch-selber/ http://www.keepnet.de/blog/2009/05/27/such-doch-selber/#comments Wed, 27 May 2009 18:33:50 +0000 Brainbug http://www.keepnet.de/blog/?p=307 Moin,

ich bin schon vor einiger Zeit über Yacy gestolpert. Yacy steht für “Yet another Cyberspace”. Dahinter verbirgt sich nichts anderes als eine Open-Source-Suchmaschine. Diese basiert auf dem P2p-Prinzip. So ist das System dezentral aufgebaut und eigene Suchanfragen werden zu anderen Peers weitergeleitet und beantwortet. Dabei steht es einem frei, den eigenen Peer im Robinson-Modus laufen zu lassen. Dies bedeutet, dass der Peer isoliert wird und weder Anfragen weitergibt, noch Anfragen von außen annimmt. Theoretisch schafft man sich dadurch eine Suchmaschine, die sich dem eignem Surfverhalten anpasst (bei allen Vor- und Nachteilen). Außerdem gibt es noch einen Modus, der Yacy als Intranet-Suchmaschine laufen lässt.

Da die Kritik an der Datenkrake Google mit der Einführung von Google Books, Streetview und den ersten Google-Handys (die einen Google-Account voraussetzen) nicht gerade geringer geworden ist, habe ich Yacy mal eine Chance gegeben. Insgesamt bin ich ganz zufrieden, allerdings gibt es einige Wehmutstropfen. Doch zunächst meine subjektiven Vorteile:

  • Der integrierte Proxy-Server ist ganz gut. Dieser kann so konfiguriert werden, dass von den angesurften Seiten aus gecrawlt werden kann.
  • Einstellungen können direkt über eine Weboberfläche vorgenommen werden. Änderungen werden sofort übernommen.
  • Die Weboberfläche bietet zudem umfangreiche Statistiken und Übersichten über aktuelle Prozesse.
  • Die Suche mit anderen Peers klappt ganz gut.
  • Der Crawler leifert ganz gute Ergebnisse.
  • Es werden auch Seiten des so genannten Dark Web erfasst.
  • Es macht einfach Spaß, sich seinen eignen Suchindex aufzubauen :-D

Nachteilig finde ich dabei:

  • Teilweise sehr instabil. Besonders, wenn man den zugesicherten Arbeitsspeicher arg eingrenzt (weniger als 200MB). Dadurch stürzt das Programm öfters mal ab – zumindest nach meiner Erfahrung.
  • Recht arbeitsintensiv! Auf einem Desktop hat das Programm meiner Meinung nach eigentlich nichts verloren. Selbst auf meinem Core 2 Duo machte sich Yacy negativ bemerkbar.
  • Es gibt relaitv wenig Peers, so dass die Suchergebnisse nicht mit komerziellen Anbietern vergleichbar sind – insbesondere Google.
  • Es dauert unter Umständen > 20 Sekunden bis alle Ergebnisse geliefert wurden.

Von daher fällt das Urteil zweischneidig aus. Zunächst ist das Yacy meiner Meinung nach nur etwas für den Serverbetrieb und hat auf Desktops wenig zu suchen. Der CPU- und RAM-Hunger machte sich bei meinem Test negativ bemerkbar. Ich finde den Robinson- und Intranet-Modus (nicht getestet) recht interessant, um sich so einen eigenen Suchindex aufzubauen. Der Fairness halber sollte man seine Ergebnisse der Masse allerdings zur Verfügung stellen. ;-)

Außerdem gibt es meiner Meinung nach noch zu wenig Peers. Ich kam bei meinem Test immer auf etwa 70-80 weitere Peers, was insgesamt wohl noch zu wenig ist. Hinzu kommt, dass diese wohl überwiegend von versierten Computernutzern zur Verfügung gestellt werden. Dies hat zur Folge, dass mit hoher Wahrscheinlichkeit ein nur ganz bestimmter Teil des Internets erfasst wird.

Interessant ist dabei aber die Sciencenet Initiative des KIT. Dies zeigt eine Suchmaschine, die primär auf wissenschaftliche Quellen ausgelegt ist. Die Suchmaske befindet sich hier!

Alles in allem ein Projekt, das man durchaus im Auge behalten sollte!

So long,
Arne

]]>
http://www.keepnet.de/blog/2009/05/27/such-doch-selber/feed/ 3