De:QuickCrawlLink

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Konfiguration

Quick Crawl Link

Durch Aufrufen des Link http://localhost:8090/QuickCrawlLink_p.html (bei YaCy auf "localhost", Port 8090) wird eine Seite mit einem Link angezeigt, den man sich in die Lesenzeichenleiste bzw. Favoritenleiste (Internet Explorer) ziehen kann.

Es wird damit eine Javascript-Funktion verlinkt, mit der man die gerade im Browser angezeigte Seite automatisch in die Crawling-Queue des YaCy-Peers setzen kann.

Ist der YaCy-Peer nicht auf "localhost" erreichbar, so kann statt "localhost:8090" die Syntax "[Username]:[Passwort]@[YaCyIP]:[Port]" verwendet werden.

Alternativ zum Bookmarken des angezeigten Links kann auch direkt eine Verknüpfung eingetragen werden:

javascript:w = window.open('http://localhost:8090/QuickCrawlLink_p.html?localIndexing=on&crawlingQ=on&xdstopw=on&title=' +
escape(document.title) +
'&url='+location.href,'_blank','height=150,width=500,resizable=yes,scrollbar=no,directory=no,menubar=no,location=no'); w.focus();

Die Crawl-Tiefe für diesen Link kann einem zusätzlichen Parameter für die aufgerufene URL gesetzt werden. Dazu direkt hinter dem Fragezeichen in der Verknüpfung "crawlingDepth=[Crawl-Tiefe]&" eingeben.

Die o.g. URL kann beispielsweise auch dafür verwendet werden, um den Crawler von einer Webseite aus zu steuern.

Die Beschreibung im YaCy-Forum erfolgte im aufgeführten Thread: http://www.yacy-forum.de/viewtopic.php?t=1433&highlight=http+localhost+8090+quickcrawllinkp+html

Verwendung

Quick Crawl Link - Response

Nach einem Klick auf die QuickCrawlLink Funktion wird die URL der gerade im Browser angezeigten Webseite an YaCy geschickt und in die Crawler Queue eingetragen.

Danach wird dem Benutzer in einem neuen Browser-Fenster angezeigt, ob die URL von YaCy akzeptiert wurde.

Im Erfolgsfall steht dort als Statustext URL successfully added to Crawler Queue, im Fehlerfall der Grund der Ablehnung der URL.

Gründe für eine Ablehnung können sein:

  • ein Verbot durch die robots.txt des Servers
  • URL ist bereits in der Queue
  • URL wurde bereits gecrawlt
  • URL ist in der YaCy Blacklist
  • URL verweist auf Server im Intranet