De:FAQIndexCreate

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Optionen

Index Create - Crawl Start

Crawling Depth

Gibt an, bis zu welcher Link-Tiefe der Crawler Seiten lädt. Wird 'Crawling Depth' auf '0' gesetzt, so wird nur die Start-Seite geladen. Bei einer Tiefe von '1' werden zusätzlich alle auf der Startseite verlinkten Seiten geladen. Es wird grundsätzlich nicht empfohlen, die 'Crawling Depth' auf höhere Werte als '3' zu setzen, da der Crawlvorgang sonst mehrere Tage in Anspruch nehmen kann. Allerdings hängt die Anzahl der gecrawlten Seiten natürlich von der Ursprungsseite sowie dem 'Crawling Filter' ab. Dazu mehr in der folgenden Sektion.

Crawling Filter

Der Crawler überprüft URLs vor dem Laden, ob sie (unter anderem) dem 'Crawling Filter' entsprechen. Hier wird eine Regular Expression eingetragen, mit welcher man die URLs einschränken kann, die geladen werden sollen. Passt der Filter auf die URL, so wird sie geladen, passt er nicht, so ignoriert der Crawler diese. Der Crawling Filter ist zum Beispiel gut, um eine bestimmte Domain komplett durchzucrawlen, ohne Links auf externe Seiten zu berücksichtigen. Zum Crawlen von Foren bitte folgende Sektion lesen.

Accept URLs with '?' / dynamic URLs

YaCy wurde von Anfang an mit dem hintergedanken an Datensicherheit und Anonymität der Benutzer entworfen. Deswegen wurden sensitive Daten vom Indexieren ausgeschlossen, zu welchen auch URLs gehören, die ein Fragezeichen beinhalten, da damit Daten an den Server übergeben werden und YaCy dementsprechend dessen vertrauliche Seite indexieren würde. Bei etlichen Foren werden nun die einzelnen Beiträge oder Themen durch eine 'Fragezeichen-URL' angefordert, weshalb YaCy sie natürlich ignorieren würde. Um YaCy dennoch dazu zu bewegen, Foren zu crawlen, wurde diese Option eingefügt, die nur den Crawler (nicht den Proxy) für diesen Crawl-Vorgang solche URLs laden lässt. Es wird empfohlen, diese Option nur zu benutzen, wenn der 'Crawling Filter' die zu ladenden Seiten auf eine Domain beschränkt, sodass nichts Unvorhergesehenes indexiert werden kann.

Das Erlauben von URLs mit einem Fragezeichen birgt allerding noch eine weitere Gefahr, der der Nutzer allerdings nur schwerlich entgehen kann: Teilweise werden Internetseiten von Servern dynamisch generiert; beispielsweise Statistiken oder zufällig angezeigte Artikel. Indexiert YaCy nun eine solche dynamische URL, so kann es sein, dass ein Nutzer, der diese URL zu seinem Suchwort findet, statt der vn YaCy indexierten Seite eine vollkommen andere erhält, da der Inhalt ja vom Server dynamisch generiert wird. Dagegen lässt sich allerdings (des Autors Wissen nach) nichts unternehmen, sodass dies sozusagen ein Kollateralschaden für YaCy bleibt, den aber jede bekannte Suchmaschine hinnehmen muss.

Store to Proxy Cache

Wird diese Option aktiviert, so werden die vom Crawler heruntergeladenen Seiten nicht aus dem Cache des Proxys entfernt sondern verbleiben darin. Das Surfen über den YaCy-Proxy auf den gecrawlten Seiten lässt sich damit beschleunigen.

ACHTUNG: Bei intensiven Crawls kann das dauerhafte Speichern der gecrawlten Seiten enorme Speichermengen belegen. Die in Proxy Indexing eingetragene maximale Cache-Größe wird nicht überschritten.

Do Local Indexing

Wird diese Option aktiviert, so werden die heruntergeladenen Seiten von dem eigenen Peer indexiert und in seiner Datenbank gespeichert (Standard).

Do Remote Indexing

Wird diese Option aktiviert, so werden Romte Crawls verschickt, das heißt dass die Aufgabe des Ladens und Indexierens der Seite (teilweise) auf andere Peers verlegt wird, die dann nur noch den fertigen Index für die Datenbank zurücksenden. Die von remote Peers gecrawlten Seiten werden dann sowohl in die Datenbank desjenigen Peers, der sie wirklich geladen und indexiert hat, als in die des initiierenden Peers aufgenommen.

Exclude static stop-words

Es gibt im YaCy-Verzeichnis eine Datei namens 'yacy.stopwords'. In ihr sind häufig benutzte Worte der deutschen und englischen Sprache eingetragen, die entweder keinen eigenen Sinn haben oder Füllwörter sind und deshalb nicht in den Index gelangen sollen, da solche Worte in fast jeder Webseite auftauchen und eine Suche danach demzufolge sinnlos wäre.

Starting Point

Die Start-URL, welche zuerst geladen wird und von der aus der Crawler an die verlinkten Seiten geschickt wird (wenn eine ausreichende Link-Tiefe angegeben wurde).

HINWEIS: Der 'Starting Point' muss ebenfalls dem 'Crawling Filter' entsprechen und darf keinem Eintrag der Blacklist entsprechen, sonst wird er nicht geladen, genauso wie jede andere URL des Crawl-Jobs.

HINWEIS: Bitte beachten Sie, dass YaCy eine eventuell vorhandene 'robots.txt' beachtet.


Distributed Indexing

Diese Option legt fest, in welchem Umfang der Peer Crawl-Aufträge von anderen Peers annimmt und bearbeitet.