De:FAQIndexControl

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Index Administration

IndexControl p.png

Transfer the whole index to an other peer

Siehe Index-Transfer

Word

Über dieses Interface haben Sie Zugriff auf die in der Datenbank gespeicherten Worte, ihre Hash-Werte und die dazugehörigen URLs, in denen sie jeweils auftauchen.

"Word"

  • "Show URL Entries for Word": Zeigt alle in der DB enthaltenen URLs an, in denen das eingegebene Wort vorkommt

"Word-Hash"

  • "Generate List": Zeigt eine Liste ähnlicher Wort-Hashes an
  • "Show URL Entries for Word-Hash": Zeigt alle in der DB enthaltenen URLs an, in denen das zum eingebenen hash gehörige Wort vorkommt
  • "Transfer to other peer": Das Wort zu dem der eingebene Hash gehört wird mitsamt aller URLs in denen es vorkommt zum ausgewählten YaCy-Peer übermittelt.

URL

In dieser Sektion erhalten Sie Informationen zu URLs und deren Hashes, die in der lokalen Datenbank gespeichert sind und die Worte, die sie enthalten.

"URL"

  • "Show Details for URL":

"URL-Hash"

  • "Generate List": Zeigt eine Liste ähnlicher URL-Hashes an
  • "Show Details for URL-Hash":

DHT-Transmission Control

Index Distribution

Die erste Checkbox de-/aktiviert die DHT-Distribution der Worte in der Datenbank an andere Peers komplett. Da sowohl die Anonymisierung als auch die Verbesserung der Suchergebnisse von der DHT-Distribution abhängen, sollte sie nur aus wirkich triftigen Gründen deaktiviert werden, z.b. während des Importierens einer Datenbank oder ähnlichen Vorgängen, die einen sehr performaten Zugriff auf die Datenbank haben sollten.

Die Zweite aktiviert diese auch während Crawl-Vorgängen. Da die DHT-Distribution relativ viele Datenbank-Zugriffe benötigt, um alle Words und ihre URLs, die versendet werden sollen, herauszufinden, verlangsamt dies beispielsweise das Schreiben der Words vom RAM-Cache in die Datenbank.

Index Receive

Hier wird der genau umgekehrte Vorgang gesteuert: Das Empfangen der von anderen Peers an Sie versendeten Words. Sie können zusätzlich eine Überprüfung der jeweils empfangenen URLs vornehmen lassen, ob sich diese in einer Ihrer aktiven Blacklists befindet. Entspricht eine URL einem Filter der Blacklists, so wird diese nicht in die DB aufgenommen sondern verworfen. Es erfolgt keine Rückmeldung an den sendenden Peer, sodass Sie und Ihre Einträge in der Blacklist anonym bleiben.


Index Import

Mit dem Index Import (siehe auch De:Index Import) ist es möglich, die Daten einer anderen YaCy-Datenbank in die Eigene aufzunehmen. Dabei wird zwischen drei Arten unterschieden, auf die im Folgenden eingangen wird. Zusätzlich zur Unterscheidung des Import-Typs ist der vom Import-Prozess maximal zu benutzende Zwischenspeicher für die zu importierende Datenbank einstellbar. Bei großen Datenbanken lohnen sich große Caches mehr als bei Kleinen. Es ist wichtig darauf zu achten, dass der Speicher, den YaCy maximal zur Verfügung hat (siehe Performance Seite), beim Zuweisen des Caches für die zu importierende Datenbank deutlich unterschritten wird. Läuft YaCy noch mit den Standard-Einstellungen von maximal 64MB RAM ist von einem Index Import dringend abzuraten, da hier ehebliche Performance-Verluste auftreten können, die den Peer unter Umständen sogar zum Absturz führen.

PLASMADB Import

Der PLASMADB Import liest die komplette Datenbank von YaCy inklusive aller RWIs und URLs ein und fügt sie der Datenbank des importierenden Peers hinzu. Die Queues werden dabei nicht importiert. Der Import-Vorgang läuft hier folgendermaßen ab:

  • Öffnen der zu importierenden Datenbank
  • Geordnetes Auslesen der RWIs inklusive aller Words aus der DB
  • Schließen der jetzt (bis auf die UrlHash.db) leeren Datenbank

Die beim Index Import angegebene vorraussichtlich benötigte Zeit für den Import ist anfangs noch sehr ungenau und liegt deutlich über der tatsächlich benötigten Zeit, jedoch nähert sie sich zügig vernünftigen Werten an. Dies liegt an der Beschaffenheit der UrlHash.db, die meist die größte einzelne Datei innerhalb der Datenbank darstellt. Dort muss - bis die URLs größtenteils im Cache vorhanden sind - jede einzelne URL herausgesucht werden, was einige Zeit in Anspruch nimmt, Der Index Import beschleunigt sich gegen Ende hin immer weiter, genügend RAM vorrausgesetzt. HINWEIS: Das Importieren einer Datenbank verläuft wesentlich schneller und flüssiger, wenn sich die zu importierende Datenbank auf einer anderen Festplatte im gleichen Rechner (möglichst auch nicht am selben IDE-Anschluss) liegt. Ist es möglich die DB auf eine Ramdisk zu legen und von dort zu importieren, ist hier nur zuzuraten.

Assortment File Import

Aufgrund von Datenbankfehlern oder unsynchronen Zugriffen auf YaCys Datenbank wurden Teile von Assortments (befindlich im DATA/PLASMADB/ACLUSTER-Unterordner der YaCy-Installation) unlesbar gemacht. Diese RWIs sind jedoch nicht verloren sondern werden im ABKP-Ordner in DATA/PLASMADB/ACLUSTER abegelegt und mit einem Zeitstempel im Dateinamen versehen. Da YaCy die URLs, die zu den "verlorenen" Assortment-RWIs gehörten, noch kennt, ist es möglich, die Wörter einfach wieder in die Datebank einzufügen. Dazu muss der Dateiname wie beschrieben geändert und der Pfad zur Datei komplett angegeben werden.

Crawling Queue Import

Index Transfer

Index Cleaner