De:Liste der Filterlisten

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Diese Seite gibt eine Übersicht über die Funktion der verschieden Filterlisten in YaCy.

Icon work.png TODO: Die Beschreibungen müssen auf ihre Richtigkeit geprüft und ausführlicher werden

Black List

Hier aufgeführte URL-Patterns werden durch die jeweiligen aktivierten Module (dht, crawler, proxy, search, surftips, news) geblockt. Blacklists können direkt im YaCy-Webinterface unter http://127.0.0.1:8090/Blacklist_p.html bearbeitet werden. Für das Erstellen und Benutzen von Blacklists siehe hier: Blacklist erstellen

Die Blacklistdateien sind unter folgendem Pfad gespeichert: $YACYROOT/DATA/LISTS/

Yellow List

Pfad: $YACYROOT/yacy.yellow

Wenn YaCy als proxy eingesetzt wird, greift YaCy auf den Zielserver mit einem eigenen user-agent zu. Dadurch kann der Nutzer seinen Browser, und in Falle das der User einen IE nutzt auch seine Identität verschleiern (denn der IE setzt im UA eine ID rein). Manche Seiten rendern aber Browser-spezifische Seiten, die dann ggf. falsch angezeigt werden. In der yacy.yellow können hostnamen reingeschrieben werden, und wird ein solcher über den Proxy zugegriffen, wird die originale user-agent des Browser übermittelt statt die YaCy user-agent Kennung.

Blue List

Pfad: $YACYROOT/yacy.blue Alle Worte die hier gelistet sind werden in allen Bereichen, wo in YaCy Wörter verarbeitet werden ausgeschlossen. Das gilt für die Suche, die Anzeige von Suchergebnissen mit diesen Wörtern (auch wenn nach was anderem gesucht wurde), dem Indexierer, und auch für den Proxy. Wird eine Seite über den Proxy gezogen die eine blueword enthält, wird die Seite zwar weitergereicht, aber die bluewords werden durch eine zufälle Anzahl von 'X' ersetzt.

Stop Words

Pfad: $YACYROOT/yacy.stopwords[.de]

Eine Stoppwortliste für den Indexierer und die Suche. Wenn das entsprechende Flag beim Crawl-Start gesetzt wird, werden die Stopwords rausgefiltert und nicht indexiert. Sinnvoll für Wörter, die den Index zumüllen, weil sie in einem großen Teil der Dokumente vorkommen.

Bad Words

Pfad: $YACYROOT/yacy.badwords

Alles Worte, die hier gelistet sind, werden bei den "Topwörter", die nach einer Suche angezeigt werden, gefiltert.

weitere Listen

Es existieren noch Domain-Filter für individuelle Crawls, da außerdem noch eine "Dynamic" und eine "Parent" stopword list (bzw. ein Schalter, um diese zu aktivieren).