De:Spezialisierung

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Ansatz

YaCy soll in Spezialgebieten richtig fit gemacht werden und hierzu viele brauchbare Links im globalen Index bereitstellen. Als Basis dienen verschiedene, themenbezogene Linksammlungen, welche in regelmäßigen Abständen von freiwilligen Peers gecrawlt werden.

Wir unterteilen dazu die Spezialgebiete hier in Sparten und auf den Folgeseiten in Crawl-Perioden. Es ist durchaus sinnvoll bestimmte Webseiten nicht täglich neu zu crawlen, wenn bekannt ist, dass sich die Inhalte nur alle paar Wochen ändern. Andererseits gibt es Seiten welche sich stündlich ändern können und daher öfters gecrawlt werden sollten.

Sparten

Bitte weitere Sparten im Forum diskutieren.

Vorgehen

Die entsprechenden Internetseiten werden entweder durch setzen der Spartenseite als Crawlstartpunkt oder durch manuelles Crawlen einzelner Links aus den Sparten gecrawlt. Letztere Methode eignet sich wohl am besten, da auf den Spartenseiten auch nicht täglich zu crawlende Internetseiten aufgeführt sind. Eine Crawl-Tiefe von 1 sollte Standard sein, 2 und tiefer aber wesentlich sinnvoller.

Bei Internetseiten die einen RSS-Feed bereitstellen kann man das ganze automatisieren, wenn mit dem Browser Firefox gesurft wird. Hierzu legt man den RSS-Feed als live Bookmark ab. Sobald Firefoxden RSS-Feed aktualisiert, crawlt und indexiert der YaCy-Proxy den verlinkten Inhalt.

Zuständigkeit

Icon info.png Note: Jeder darf und sollte mitmachen!

Grundsätzlich ist es sehr sinnvoll, wenn mehrere Peers eine bestimmte URL crawlen, aber natürlich ist ein Peer besser als kein Peer. Die am Crawling bestimmter Internetseiten beteiligten Peers werden, durch Komma getrennt, hinter den Linklisten-Eintrag in Klammern geschrieben.

Die Aktualität der Zuständigkeiten sollte regelmäßig durch die Gemeinschaft überprüft werden.