Such doch selber!

Moin,

ich bin schon vor einiger Zeit über Yacy gestolpert. Yacy steht für “Yet another Cyberspace”. Dahinter verbirgt sich nichts anderes als eine Open-Source-Suchmaschine. Diese basiert auf dem P2p-Prinzip. So ist das System dezentral aufgebaut und eigene Suchanfragen werden zu anderen Peers weitergeleitet und beantwortet. Dabei steht es einem frei, den eigenen Peer im Robinson-Modus laufen zu lassen. Dies bedeutet, dass der Peer isoliert wird und weder Anfragen weitergibt, noch Anfragen von außen annimmt. Theoretisch schafft man sich dadurch eine Suchmaschine, die sich dem eignem Surfverhalten anpasst (bei allen Vor- und Nachteilen). Außerdem gibt es noch einen Modus, der Yacy als Intranet-Suchmaschine laufen lässt.

Da die Kritik an der Datenkrake Google mit der Einführung von Google Books, Streetview und den ersten Google-Handys (die einen Google-Account voraussetzen) nicht gerade geringer geworden ist, habe ich Yacy mal eine Chance gegeben. Insgesamt bin ich ganz zufrieden, allerdings gibt es einige Wehmutstropfen. Doch zunächst meine subjektiven Vorteile:

  • Der integrierte Proxy-Server ist ganz gut. Dieser kann so konfiguriert werden, dass von den angesurften Seiten aus gecrawlt werden kann.
  • Einstellungen können direkt über eine Weboberfläche vorgenommen werden. Änderungen werden sofort übernommen.
  • Die Weboberfläche bietet zudem umfangreiche Statistiken und Übersichten über aktuelle Prozesse.
  • Die Suche mit anderen Peers klappt ganz gut.
  • Der Crawler leifert ganz gute Ergebnisse.
  • Es werden auch Seiten des so genannten Dark Web erfasst.
  • Es macht einfach Spaß, sich seinen eignen Suchindex aufzubauen :-D

Nachteilig finde ich dabei:

  • Teilweise sehr instabil. Besonders, wenn man den zugesicherten Arbeitsspeicher arg eingrenzt (weniger als 200MB). Dadurch stürzt das Programm öfters mal ab – zumindest nach meiner Erfahrung.
  • Recht arbeitsintensiv! Auf einem Desktop hat das Programm meiner Meinung nach eigentlich nichts verloren. Selbst auf meinem Core 2 Duo machte sich Yacy negativ bemerkbar.
  • Es gibt relaitv wenig Peers, so dass die Suchergebnisse nicht mit komerziellen Anbietern vergleichbar sind – insbesondere Google.
  • Es dauert unter Umständen > 20 Sekunden bis alle Ergebnisse geliefert wurden.

Von daher fällt das Urteil zweischneidig aus. Zunächst ist das Yacy meiner Meinung nach nur etwas für den Serverbetrieb und hat auf Desktops wenig zu suchen. Der CPU- und RAM-Hunger machte sich bei meinem Test negativ bemerkbar. Ich finde den Robinson- und Intranet-Modus (nicht getestet) recht interessant, um sich so einen eigenen Suchindex aufzubauen. Der Fairness halber sollte man seine Ergebnisse der Masse allerdings zur Verfügung stellen. ;-)

Außerdem gibt es meiner Meinung nach noch zu wenig Peers. Ich kam bei meinem Test immer auf etwa 70-80 weitere Peers, was insgesamt wohl noch zu wenig ist. Hinzu kommt, dass diese wohl überwiegend von versierten Computernutzern zur Verfügung gestellt werden. Dies hat zur Folge, dass mit hoher Wahrscheinlichkeit ein nur ganz bestimmter Teil des Internets erfasst wird.

Interessant ist dabei aber die Sciencenet Initiative des KIT. Dies zeigt eine Suchmaschine, die primär auf wissenschaftliche Quellen ausgelegt ist. Die Suchmaske befindet sich hier!

Alles in allem ein Projekt, das man durchaus im Auge behalten sollte!

So long,
Arne

Tags: , , , , ,

3 Antworten zu “Such doch selber!”

  1. Roland sagt:

    Das mit dem Speicherhunger wird glaube ich gerade gut im Forum diskutiert. Auch soll der Balancer neu gemacht werden (hast da wohl den wunden Punkt erwischt, ich sag halt meine Meinung, so wie sie ist), der fuer viele OutOfMemoryError verantwortlich (Vermutung von mir) ist.

    Ansonsten schaue mal ab und an im Forum vorbei! Die Software macht wirklich in Sachen Stabilitaet Fortschritte, auch wenn es mal nicht so aussieht. ;)

    Was ich an YaCy sehr schaetze, ist das P2P. Das beudetet, dass YaCy auch schwer zensierbar ist, was bei Google & Co. leichter geht.

  2. Roland sagt:

    Und wieso hat das nichts auf dem Desktop zu suchen? Also ich habe es selbst auf der Weiterbildung nebenher laufen und lege mir dabei ganz so nebenbei ein eigenes Suchportal an. Natuerlich ist dann Prefetch – also das Vorabsurfen von Seiten – aus.

  3. Brainbug sagt:

    Hallo Roland,
    wollte dir ja noch antworten ;-)
    Also insgesamt finde ich, dass mein Rechner durch ein parallel laufendes Yacy zu sehr ausgelastet ist. Ich hasse es einfach, wenn irgendwas auch nur einen Hauch von laggt ;-)

Hinterlasse eine Antwort