17 # Websuche und P2P-URL-Sharing
mit YaCy & Spot-On ●

Neben der Kommunikation im Internet, Chat und E-Mail, sowie der Übertragung von Dateien spielt der dritte große Bereich von Nutzungsabsichten im Web eine zentrale Rolle: die Suche nach Informationen. Webseiten mit Artikeln und Nachrichten liefern diese im World Wide Web.
Dabei wird googelt, in der Wikipedia geschaut, was das Zeug hält - oder aber vernetzte Nutzerinnen und Nutzer in den sozialen Medien wie RetroShare, Mastodon, Twitter oder Facebook senden uns die URLs zu den neuesten Themen in unsere Nachrichtenliste.
Junge Wissenschaftlerinnen und Wissenschaftler erlernen an der Hochschule in ihrer Informationsverarbeitung oftmals ein »Enzyklopädisches Prinzip« – das so viel bedeutet wie: Erst alles sichten, und dann das Relevante in die zu bearbeitende Fragestellung einbauen. Oder wie die Bibel im ersten Brief Kapitel 5 an die Thessalonicher formuliert: Sichte und prüfe alles, und behalte das Gute!
Zugleich wird uns in der öffentlichen und digitalen Welt jedoch deutlich, dass wir vieles gar nicht sichten können. Viele Informationen bleiben zurück, dringen nur nach Jahren an die Öffentlichkeit, wie es z.B. über 50 Jahre dauerte, dass allgemein bekannt war, dass Asbest gesundheitsschädlich ist. Oder die Informatoren sind in strukturellen Gegebenheiten verfangen: wir erhalten Nachrichten nur in einer sog. »Filterblase«, d.h. von Freundinnen und Freunden aus den sozialen Netzen mit den gleichen Ansichten. Erfahren aber zu wenig die Argumente einer Gegenseite und können uns diese daher auch nicht erschließen. Oder: Nutzerinnen und Nutzer sind von einem zentralen Service wie Google abhängig, und das bedeutet auch, von der Priorisierung der Nachrichten durch andere abhängig zu sein – oder gar, wenn die URL nicht im Index verzeichnet wird, dieser Realitätsanpassung (um nicht Zensur zu sagen) zu unterliegen.
Der Zugang zu autonomen, vollständigen und unpriorisiertem Wissen ist daher ein wichtiges Anliegen.
Das bedeutet zugleich auch, die Speicherung, Verfügbarkeit und Administration der Informationsbestände nicht nur einem zentralen Dienst zu überlassen, sondern vielmehr in die Hände vieler, der souveränen Nutzerinnen und Nutzer zu legen.
Die Twitter-Nutzerin ›Camelia‹ fragte unlängst nach einer Software, die es ermöglicht, die URLs ihrer gefunden Webseiten in einer Datenbank durchsuchbar zu machen. Sie wollte voraussichtlich wohl einen Datenbestand zur jüdischen Kultur zusammenstellen.
Oder URLs von Webseiten für queere Menschen der LGBTQIA-Gemeinschaft: auch sie werden im digitalen Zeitalter von den entsprechenden Referaten an den Hochschulen heute ebenso gesammelt, wie sie die letzten 50 Jahre thematische Bücher dazu in ihren Regalen zusammengetragen haben.
Diese digitale Transformation der Wissensbestände ist den Mitgliedern der Chinesischen »Falun Gong«-Guppe in China verwehrt geblieben. Progressive Webseiten zu diesem Stichwort werden genauso wenig in der landesspezifischen Suchmaschine Baidu angezeigt wie einige Webseiten zu dem Thema Menschenrechte.
Dieses sind nur ein paar wenige Anwendungsfälle, kryptographische oder mathematische Abteilungen an Hochschulen mögen ebenso fachspezifische URLs und deren Dokumente abspeichern wie auch Privat-Nutzerinnen und -Nutzer zu jeglichen Hobby-Themen und Interessensgebieten.
All diese individuellen und organisations-spezifischen Blickwinkel haben also schon ein Interesse an einem eigenen, durchsuchbaren Datenbestand an URLs und Webseiten. Kurzum: Statt Google, besser eine Websuche mit einem eigenen Datenbestand zuhause auf der eigenen Festplatte? Ein Datenbestand, der uns gehört. Und eine P2P-Websuche kann diesen liefern.
YaCy ist dabei eine bekannte P2P-Websuche, die ebenso keinen zentralen Server für die Websuche benötigt. Sie hat P2P-Websuche über das letzte Jahrzehnt hinaus etabliert und ist mit rund 250 bis in Spitzenzeiten über 1000 gleichzeitigen Online-Knotenpunkten in diesem Netzwerk in der Lage, mit Millionen von indexierten Webseiten durch die Schwarmintelligenz weniger Menschen, allen eine Alternative zu Google anzubieten.
Bei der Spot-On-P2P-Websuche werden statt der Suchworte die URL-Datenbestände im Netzwerk geteilt: Die Suche erfolgt nicht im Netz, sondern in dem jeweiligen eigenen lokalen URL-Datenbank-Bestand auf der Festplatte (im LocalHost). So werden keine Dokumentationen von Suchanfragen (sog. »Queryhits«) in den anderen Knotenpunkten des Netzwerkes erzeugt. (Ebenso wäre die Seite Startpage.com eine nicht p2p-orientierte, sondern zentrale Suchmaschinen-Datenbank im Web, die die Suchworte in der URL nicht kenntlich macht.)
Wenn Nutzerin Alice eine Datenbank mit 1000 URLs hat, und Nutzer Bob eine Datenbank mit 1000 URLs, und beide den Schlüssel für die URL-Übertragung tauschen, dann addiert sich in jedem Klienten die URL-Zahl auf 2000 URLs. Filtermöglichkeiten für eingehende URLs sind gegeben.
Als Standard sind die Verbindungen im P2P-Netzwerk bei Spot-On Websuche immer verschlüsselt, zu dem vorhandenen Web-Interface, wie auch zu anderen Knotenpunkten. Das sind einige Unterschiede zum URL-Netzwerk von YaCy.
Spot-On-Websuche kann zudem die Dokumente indexieren und diese auf dem lokalen Rechner wie auch im Web zur Verfügung stellen: es wird also eine Kopie ausschließlich nur des Textes der Webseite als PDF- oder Text-Datei in der lokalen Datenbank abgelegt.
Kurzum: Die Spot-On Web- und URL-Suche ist eine technische Alternative, die den URL-Transfer verschlüsselt umsetzt, PostgreSQL- und SQLite-Datenbanken unterstützt, sich über RSS, P2P und URL-Insertionen einspeisen lässt und zugleich aus der lokalen Datenbank heraus ein Text- bzw. PDF-Dokument zu der URL mitliefert. Die Suche kann im Klienten wie auch in der Weboberfläche eines Browsers erfolgen.
Über die RSS-Funktionen beider Klienten, YaCy und Spot-On, können Datenbestände oder aktuelle Suchergebnisse zu bestimmten Stichworten ebenso in einem hybriden Design vernetzt und auch in einer entsprechenden Datenbank lokal gesammelt werden.
Viele Menschen sind jedoch nicht daran interessiert, einen Beitrag zur Vorhaltung von Wissensbeständen zu leisten. Sie nehmen die Option, kostenfrei und zentral »googlen« zu können, einfach hin. Für den jährlichen Spenden-Marathon der Wikipedia sind Lehrerinnen und Lehrer sowie Eltern ggf. noch zu begeistern, kaum wissend, wie viele Informationen in der Wikipedia unterbleiben, Artikel für Aktualisierungen gesperrt sind, neue Informationen Edierungs-Kriegen und Löschungs-Feldzügen unterliegen.
Dass unbeobachtetes und unaufgezeichnetes Suchverhalten notwendig ist, zeigt, dass sowohl Twitter, Google und weitere wie auch zensierende Regime wie China jederzeit in den permanenten Aufzeichnungen feststellen können, wer wann nach welchem Stichwort gesucht oder dazu geschrieben hat.
Wir wollen hoffen, dass nie wieder aufgrund von Erkenntnisinteressen von Menschen die Polizei vor deren Haustüre steht oder gar Lehrerinnen und Lehrer sowie Richterinnen und Richter aufgrund ihrer Recherche aus dem Amt entlassen werden, wie es in der Türkei in den letzten Jahren zu Tausenden der Fall war .
Einige wenige sehen daher die Notwendigkeit, auch in der Infrastruktur und in dem Aufbau thematischer Suchkataloge für eine eigene Web-Suche einen Beitrag zu leisten.
Es ist daher wichtig, dass jede Schule, jede Bildungsinstitution mit einem eigenen Knotenpunkt an der Bereitstellung von frei zugänglichen und sofort lesbaren P2P-vernetzten Wissensdatenbanken beiträgt, ggf. auch nur gedanklich.
Der deutsche Bundeskanzler Gerhard Schröder und der französische Präsident Jacques Chirac hatten dieses seinerzeit 2008 erkannt und das Projekt Quaero aufgesetzt. Ziel war, Websuche neu zu definieren, ggf. auch P2P. Die Projektanträge waren jedoch so allgemein auf Suchprozesse definiert, dass das Projekt keine wirkliche Internet- oder P2P-Websuche hervorbrachte. Allenfalls die Firmen Exalead und Startpage entwickelten aus dem Projekt heraus eine weitere zentrale Suchmaschine, die jedoch heute ebenso Ergebnisse von Google widerspiegelt.
Zu vermuten ist aber auch, dass die politische Abhängigkeit Deutschlands von Amerika diese Freiheit, eine eigene europäische Websuche aufzubauen, nicht ermöglichte. Suche, Datenbankaufbau und Geheimdienst-Überwachung finden in Übersee statt. Kleinere Technologie-Unternehmen in Europa finden wirtschaftlich keinen Zugang zum Thema URL-Datenbank.
Und Google ist ja wirklich exzellent in der Erfassung des Neuen. Wer die neue und bislang im Internet noch nicht verzeichnete ISBN eines Buches am Tag der Erstausgabe recherchiert, wird feststellen, dass der Seitenzuwachs sehr schnell in Google erfolgt, in den weiteren großen Suchmaschinen Bing oder Yandex oder Baidu jedoch nicht. Die Gründlichkeit des Erfassungsdienstes von Google bietet einen guten Service, erschreckt jedoch auch hinsichtlich der umfassenden Überwachungstechnologie - und verhindert damit Alternativen.
Zehn Jahre später nach Quaero wird ebenso mit der europäischen Cloud Gaia-X versucht, eine europäische Souveränität im Bereich der Datenspeicherung zu schaffen. Dieses Projekt wird ggf. ebenso bald wieder verschwinden wie Quaero. Dennoch haben die inzwischen intensivierten Datenschutzrechte es ermöglicht, dass Daten zumindest nicht in Übersee gespeichert werden müssen.
Die Etablierung einer europäischen, nationalen oder nutzereigenen Suchdatenbank für Webseiten ist also nicht gelungen, da dieses mit Kosten und Mühen verbunden ist.
Somit bleibt die Schwarmintelligenz eines P2P Netzwerkes weiterhin eine wichtige Lösungsmethode, mit der Bildungsinstitutionen für den Aufbau eines durchsuchbaren Wissenstandes treibende Kraft bleiben können. Dazu könnte jede Bildungsinstitution, die mit einer Webseite im Netz präsent ist, per Gesetz verpflichtet werden, einen Server für durchsuchbare URLs in einem P2P-Netz der Datenbanken vorzuhalten, wenn dieses distribuierte Ehrenamt in der Bildungspolitik gegenüber einem Markt-Monopolisten weiter ausgebaut werden soll. Was früher die ISBN für Bücher war, ist heute die URL für Webseiten und Online-Ressourcen. Warum sollte es also nicht auch den Schritt geben, dass jede Stadt eine Datenbank mit URLs zu Webseiten wie eine Stadtbücherei durchsuchbar vorsieht, wenn Wissen heute in Blogs und Webseiten so schnell und dezentral geworden ist, dass die Bevölkerung nicht mehr warten kann, bis jemand das Wissen in einem Buch zusammenfasst und dieses per ISBN in einer Bibliothek aufzufinden ist? Der Buchdruck brachte Bibliotheken, das Internet sollte jeder Stadt eine zügig durchsuchbare URL-Datenbank liefern. Es ist ein überfälliger Schritt des Wissens-Managements unserer Gesellschaft, sich nicht von einer Monopol-URL-Datenbank in der Websuche abhängig zu machen.
YaCy und Spot-On liefern dazu bislang die Modelle und Blaupausen zu solchen verteilten und durchsuchbaren Datenbanken mit URLs zu Webseiten.



     s.o.


Quelle: Tenzer, Theo - Sonderausgabe mit einem Vorwort von "Aktion Freiheit statt Angst e.V.": Open-Source Verschlüsselung - Quell-offene Software zur Demokratisierung von Kryptographie, Schutz vor Überwachung, Norderstedt 2024, ISBN 9783757853150.

00_Inhaltsverzeichnis-Einleitung

Download des E-Books als Gesamt-PDF