De:Proxy

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Allgemeines zu Proxies

Proxies haben meistens zwei wichtige Funktionen, welche meistens in Firmen eingesetzt werden:

  • Der Internetverkehr geht über einen Knotenpunkt. Das heißt, dass die Daten in der Regel nur einmal geladen werden müssen, und bei einem weiteren Besucher aus dem Cache geladen werden können (kleinerer Datentransfer)
  • Bekannte illegale oder gegen bestimmte Richtlinien verstossende Seiten können zentral an diesem Ort gesperrt werden. Auch kann gleich vielfach mitgeloggt werden, wer (IP) welche Seite wann besucht hat, und gibt so einem Admin/Chef Infos in die Hand.

Manchmal, und je nach Proxy gibt es auch die Möglichkeit sich an einem Proxy zu authentifizieren (einzuloggen), so dass nicht jeder meinen Proxy benutzen kann. YaCy kann das.

"Anonyme" Proxies

"Anonyme" Proxies sind in der Regel Proxies im Internet, welche meine IP verschleiern, und sagen, dass sie kein Protokoll über den Zugriff führen. Der User kann sich aber selten zu 100% darauf verlassen, dass doch nichts protokolliert wird.

Der Proxy in YaCy

YaCy hat einen integrierten Proxy. Auch hier kann man Webseiten sperren. Dies geschieht zentral über die Einstellungsseite "Peer Administration"->"Filter & Blacklists" http://localhost:8090/Blacklist_p.html. Speziell an dieser Blacklist ist, dass mehrere Blacklisten parallel exisitieren können, und diese getrennt für den Proxy, den Crawler, die DHT und die Websuche aktiviert werden können.

Speziell bei YaCy

Wieso gerade YaCy auch als Proxy benutzen? Ganz einfach. YaCy ist primär als Suchmaschine gedacht. Aber eine Suchmaschine kann sich nicht darauf verlassen, viele Links und Seiten im Internet von selbst zu finden. Irgendwo muss es ein Startpunkt geben.

Zudem gibt es viele Seiten, die nirgendwo im Internet verlinkt sind, ein sogenanntes DarkNet. Und hier kommt der Proxy ins Spiel. Wenn schon die Suchmaschine von selbst nicht dorthin kommt, muss man ihr auf die Sprünge helfen. Mit dem Proxy ist das möglich. Denn jede Seite, die mit dem Proxy besucht wird, wird anschliessend indexiert und in den Suchindex aufgenommen. So kommen ohne mühsames Suchen etliche DarkNet-Seiten ans Tageslicht und damit in die allgemeine Suche.

Passwortschutz und Benutzerkonten für den Proxy

Was YaCy auch kann, ist das weiter oben genannte Authentifizieren. Um dies zu benutzen geht man wie folgt vor:

  • nach "System Administration"->"Erweiterte Einstellungen" http://localhost:8090/Settings_p.html gehen
  • dann unter "Proxy Zugangs-Einstellungen" http://localhost:8090/{{{1}}}
  • jetzt geht's ans Eingemachte: zuerst müssen die IPs bestimmt werden, die darauf zugreifen dürfen. Geschieht dies nur vom eigenen PC aus, dann sind diese Einstellungen Standard: localhost,127.0.0.1. Dies dient dazu, dass nicht jeder den Proxy benutzen kann, und so seine IP verstecken. Ist aber YaCy auf einem entfernten Rechner (irgendwo im Internet) ist dies weniger hilfreich, und dazu gibt es ja die Authentifizierung.
  • Damit sich Benutzer für den Proxy einloggen müssen, muss der Haken Nutze Proxy Accounts http://localhost:8090/User_p.html gesetzt sein.
  • Anschließend müssen Proxy Accounts http://localhost:8090/User_p.html erstellt werden. Nur Benutzer, die sich einloggen können, können dann den Proxy benutzen und YaCy helfen, um Seiten zu finden.

Indexieren mit dem Proxy

Um zu verhindern, dass der Proxy Webmailer und andere private und zum Teil auch passwortgeschützte Seiten indexiert, wurden von den Entwicklern Regeln aufgestellt und in den Proxy einprogrammiert. Diese stellen sicher, dass solche Webseiten nicht in den Index gelangen.

Webseiten werden über den Proxy nur indexiert, wenn folgende Bedingungen erfüllt sind:

  • kein Request Parameter
  • kein Set-Cookie-Header in der Response
  • kein Cookie-Header im Request
  • kein pragma:no-cache-Header in der Response
  • kein Cache-Control:private/no-cache/no-store-Header im Response
  • keine Authorization-Header im Request
  • keine Content-Range-Header in der Response
  • MIME-Types die auf Bilder und Media Content hinweisen

Sollte sich bereits eine Kopie der Seite im Cache befinden, werden die Last-Modified-Header, Expired-Header und Cache-Control:max-age=[TTL]-Header genutzt um zu entschieden, ob die Seite noch einmal gecached und indexiert wird oder nicht.

Proxy im WebBrowser einrichten

Anleitungen zur Einrichtung der einzelnen Browser für die Proxienutzung finden sich auf der Seite Browserintegration



Grundlagen | Einsteiger | Fortgeschrittene