De:Liste der Filterlisten
Diese Seite gibt eine Übersicht über die Funktion der verschieden Filterlisten in YaCy.
Inhaltsverzeichnis
Black List
Hier aufgeführte URL-Patterns werden durch die jeweiligen aktivierten Module (dht, crawler, proxy, search, surftips, news) geblockt. Blacklists können direkt im YaCy-Webinterface unter http://127.0.0.1:8090/Blacklist_p.html bearbeitet werden. Für das Erstellen und Benutzen von Blacklists siehe hier: Blacklist erstellen
Die Blacklistdateien sind unter folgendem Pfad gespeichert: $YACYROOT/DATA/LISTS/
Yellow List
Pfad: $YACYROOT/yacy.yellow
Wenn YaCy als proxy eingesetzt wird, greift YaCy auf den Zielserver mit einem eigenen user-agent zu. Dadurch kann der Nutzer seinen Browser, und in Falle das der User einen IE nutzt auch seine Identität verschleiern (denn der IE setzt im UA eine ID rein). Manche Seiten rendern aber Browser-spezifische Seiten, die dann ggf. falsch angezeigt werden. In der yacy.yellow können hostnamen reingeschrieben werden, und wird ein solcher über den Proxy zugegriffen, wird die originale user-agent des Browser übermittelt statt die YaCy user-agent Kennung.
Blue List
Pfad: $YACYROOT/yacy.blue
Alle Worte die hier gelistet sind werden in allen Bereichen, wo in YaCy Wörter verarbeitet werden ausgeschlossen. Das gilt für die Suche, die Anzeige von Suchergebnissen mit diesen Wörtern (auch wenn nach was anderem gesucht wurde), dem Indexierer, und auch für den Proxy. Wird eine Seite über den Proxy gezogen die eine blueword enthält, wird die Seite zwar weitergereicht, aber die bluewords werden durch eine zufälle Anzahl von 'X' ersetzt.
Stop Words
Pfad: $YACYROOT/yacy.stopwords[.de]
Eine Stoppwortliste für den Indexierer und die Suche. Wenn das entsprechende Flag beim Crawl-Start gesetzt wird, werden die Stopwords rausgefiltert und nicht indexiert. Sinnvoll für Wörter, die den Index zumüllen, weil sie in einem großen Teil der Dokumente vorkommen.
Bad Words
Pfad: $YACYROOT/yacy.badwords
Alles Worte, die hier gelistet sind, werden bei den "Topwörter", die nach einer Suche angezeigt werden, gefiltert.
weitere Listen
Es existieren noch Domain-Filter für individuelle Crawls, da außerdem noch eine "Dynamic" und eine "Parent" stopword list (bzw. ein Schalter, um diese zu aktivieren).