Suchmaschinen 12. Mai 2014 von Dirk Lewandowski

Warum wir einen freien Web-Index brauchen

Foto: Alix Guilard, Oud Google kantoor, CC BY-SA

Alle nutzen Google, aber kaum jemand denkt über Konsequenzen nach. Ab und an werden alternative Suchmaschinen gefordert, doch weder der Markt allein noch eine staatliche Suchmaschine versprechen Auswege aus der Monokultur. Ein freier Web-Index hingegen könnte Voraussetzungen schaffen, um die Suchmaschinen-Landschaft zum Blühen zu bringen.

Wir alle nutzen Suchmaschinen, die meisten von uns jeden Tag. Mehr als 2.000 Suchanfragen werden in Deutschland pro Sekunde an die allgemeinen Suchmaschinen gestellt, deutlich mehr als 90 Prozent davon gehen an Google. Es gibt zahlreiche Versuche, diese Treue der Nutzer zu Google zu erklären. Die gängigsten Erklärungen sind:

Google liefert die besten Suchergebnisse (fraglich),
Google ist zum richtigen Zeitpunkt mit einem guten Angebot gestartet und hat seine gute Startposition hervorragend ausgebaut (plausibel),
Google hat eine einfache und gut bedienbare Benutzerschnittstelle (sicherlich ein Faktor),
die Nutzer haben sich an Google gewöhnt und ziehen deshalb keine anderen Suchmaschinen in Betracht (plausibel),
die Nutzer sind mit den Suchergebnissen zufrieden (richtig),
es gibt einfach keine Alternativen zu Google (darum soll es im Folgenden gehen).

Aber warum überhaupt Alternativen, wenn die Nutzer mit den Leistungen von Google doch zufrieden sind?

Zum einen geht es um die mittlerweile schon legendäre Datensammelwut der Suchmaschine: Google möchte am liebsten alles protokollieren, was wir im Netz tun. Vordergründig geht es dabei um die Verbesserung der Suchergebnisse, wichtiger aus Googles Perspektive ist aber die noch genauere Ausspielung von individualisierter Werbung. Würden wir nicht nur die eine Suchmaschine verwenden, würden sich unsere Daten auf die unterschiedlichen Anbieter verteilen; keiner dieser Anbieter wüsste alles über uns.

Das zweite starke Argument für Alternativen auf dem Suchmaschinenmarkt hat mit Wissenserwerb und Vielfalt zu tun: Wir erwerben unser Wissen zunehmend über das Netz (und damit vermittelt durch Suchmaschinen), und daher ist es wichtig, dass wir uns nicht nur auf eine mögliche Art der Suche zu verlassen, die mit einer von vielen möglichen Arten einhergeht, wie Ergebnisse sortiert werden können. Suchmaschinen verfolgen in der Ergebnispräsentation auch eigene Interessen; so bevorzugt Google beispielsweise seine eigenen Ergebnisse aus Spezialsuchen wie zum Beispiel der lokalen Suche gegenüber denen seiner Konkurrenten – auch wenn das Google-eigene Angebot nicht unbedingt besser ist.

Aber auch wenn es keine willentliche Bevorzugung gäbe: Jede Suchmaschine ordnet die Suchergebnisse nach Verfahren an, die von Menschen unter bestimmten Annahmen ausgedacht wurden. Das wird leider in der Diskussion immer wieder vergessen, und man sieht das Ranking der Suchergebnisse als rein technisches Problem an. Doch es gibt viele verschiedene Arten, Suchanfragen und Webseiten zu interpretieren, um sie miteinander in Verbindung zu bringen. Und auch wenn Google eine erfolgreiche Art entwickelt hat, wie man das tun kann, so gibt es schlicht nicht die eine richtige Lösung, sondern viele Möglichkeiten. Wir sollten uns in unseren Recherchen nicht auf nur eine Möglichkeit beschränken (lassen).

Warum es kaum echte Alternativen gibt

Wie sieht es aus, wenn wir nun tatsächliche nach Alternativen suchen? Zunächst einmal gibt es viele vermeintliche Alternativen, nämlich Angebote, die vordergründig als eigenständige Suchmaschinen daherkommen, allerdings die Ergebnisse einer anderen Suchmaschine anzeigen. Und meist kommen die Ergebnisse dann von Google. Beispiele für solche „Suchmaschinen“ sind die Suchen auf Portalen wie T-Online oder Web.de.

Dr. Dirk Lewandowski ist Professor für Information Research und -Retrieval an der Hochschule für Angewandte Wissenschaften Hamburg. Er lehrt und forscht zum Thema Suchmaschinen, besonders zur Qualitätsmessung und zum Verhalten der Nutzer. Er ist Herausgeber des Handbuchs Internet-Suchmaschinen (bislang drei Bände). Foto: Martin Risseeuw, CC-BY-SA

Dann gibt Suchmaschinen, die in anderen Ländern stark sind, allerdings nicht auf deutschsprachige Inhalte angepasst sind und daher von nur geringem Nutzen hierzulande sind. Dazu gehören die russische Suchmaschine Yandex, die chinesische Suchmaschine Baidu und die beiden häufig in der Presse als Alternativen genannten US-amerikanischen Suchmaschinen Blekko und Duck Duck Go.

Und so bleibt als einzige wirkliche nennenswerte Alternative Microsofts Suchmaschine Bing. Im Hinblick auf die Größe des Datenbestands, die Qualität der Suchergebnisse und das Benutzererleben kann sie tatsächlich mit Google konkurrieren. Dass sie allerdings keinen großen Zulauf an Nutzern hat, dürfte vor allem daran liegen, dass sie eigentlich genau das bietet, was Google auch bietet – bei manchen Suchanfragen erreicht sie bessere Ergebnisse als Google, bei manchen schlechtere. Insgesamt ist das kein überzeugendes Argument für einen Wechsel der Suchmaschine.

Wir brauchen nicht eine weitere, sondern viele Suchmaschinen

Unter Experten gibt es kaum Uneinigkeit darüber, dass es wünschenswert wäre, mehr Suchmaschinen zu haben. Über den Weg dorthin streitet man sich allerdings. Da gibt es auf der einen Seite Forderungen nach einer staatlichen Suchmaschine, auf der anderen Seite hofft man auf den Markt, der alles regeln wird.

Doch dass der Suchmaschinenmarkt „kaputt“ ist, ist schon seit Jahren offensichtlich. Und die staatliche Förderung einer alternativen Suchmaschine wirft das Problem auf, dass diese Suchmaschine auch scheitern könnte; unter Umständen auch aus Gründen, die mit der eigentlichen Suche gar nichts zu tun haben, wie zum Beispiel schlechtem Marketing oder einer schlechten Benutzerführung.

Und selbst wenn es gelänge, eine solche Suchmaschine zu etablieren, hätten wir nur eine Alternative mehr. Das würde mit Google und Bing eine Gesamtzahl von drei wichtigen Suchmaschinen machen. Was wir aber brauchen, ist eine Vielzahl von Suchmaschinen. Und diese werden wir nur erreichen, indem wir Voraussetzungen schaffen, unter denen Anbieter in der Lage sind, neue Suchmaschinen zu gründen.

Ein für alle zu fairen Konditionen zugänglicher Index des Web

Der Schlüssel dazu liegt in der Schaffung eines frei zugänglichen Suchmaschinen-Index. Der Index ist die Datenbank der Webseiten, die bei einer Suche im Web abgefragt werden. Um eine gute Suchmaschine zu betreiben, muss der Index viele Milliarden Dokumente umfassen und schnell abfragbar sein.

Um einen solchen Index aufzubauen, bedarf es einerseits einer hohen technischen Expertise, andererseits aber auch großer finanzieller Investitionen. Insbesondere der letzte Punkt ist es, der interessierte und technisch versierte Anbieter daran hindert, tatsächlich eigene Suchmaschinen aufzubauen. Im Klartext: Der Aufbau eines eigenen Web-Index ist schlicht zu teuer. Das sieht man auch daran, dass neben Google eigentlich nur Microsoft einen weltweiten Index betreibt. Und hinzu kommt, dass tatsächlich nur Google damit Geld verdient; Microsoft hat in den letzten Jahren mit seiner Suchmaschine – die ja gerade erst aufgrund des eigenen Index so teuer im Betrieb ist – Verluste in Milliardenhöhe geschrieben.

Aus diesen Gründen ist die staatliche Finanzierung eines Web-Index, auf den alle interessierten Parteien zugreifen können, der einzige Ausweg. Der Aufbau und Betrieb eines solchen Index ist als Infrastrukturaufgabe zu sehen – genauso wie der Bau von Straßen, die von allen genutzt werden können oder die Finanzierung von Bibliotheken, die der ganzen Bevölkerung zugute kommen.

Auf einen Satz zusammengefasst, lautet die Vision: Ein für alle zu fairen Konditionen zugänglicher Index des Web. Was ist mit dieser kurzen Formulierung gemeint?

„Für alle“ meint dabei, dass jeder Interessierte auf den Index zugreifen kann.
„Zu fairen Konditionen“ meint nicht, dass der Zugriff auf den Index für alle kostenlos sein muss. Vielmehr gehe ich davon aus, dass durch eine staatliche Förderung der Index als Infrastruktur erstellt wird, seine Nutzung allerdings durchaus mit Gebühren verbunden sein sollte, um letztlich wenigstens einen Teil der Kosten zu refinanzieren. Ähnlich dem gängigen Geschäftsmodell um APIs (Programmier-Schnittstellen) sollte allerdings eine bestimmte Menge von Dokumentabrufen pro Tag kostenlos sein, damit auch nicht-kommerzielle Initiativen gefördert werden.
Unter „zugänglich“ ist zu verstehen, dass der Index leicht automatisch abgefragt werden kann. Weiterhin sollte tatsächlich alles im Index enthaltene auch abfragbar sein. Im Gegensatz zu den oben beschriebenen APIs der heutigen kommerziellen Suchmaschinen sollten also die vollständigen Dokumentrepräsentationen inklusive der Volltexte der Dokumente verfügbar sein. Zudem sollte die Zahl der abzurufenden Dokumente oder Dokumentrepräsentationen nicht beschränkt werden, damit die Nutzer des Index tatsächlich ein gutes Ranking auf einer großen Dokumentenbasis erstellen können. Nichtsdestotrotz sollten Basis-Rankingfunktionalitäten zur Abfrage des Index bereitgestellt werden, damit die abzufragende Dokumentenmenge doch sinnvoll beschränkt werden kann.
Und „Index des Web“ meint schließlich möglichst alle Inhalte des Web. Dies bedeutet auch, dass der Index die bei Suchmaschinen heute schon üblichen Kollektionen von Nachrichten, Bilder, Videos, usw. enthalten sollte, aber natürlich sind auch weitere Kollektionen denkbar, die Suchmaschinen heute nicht anbieten. Dazu kommen Datenkollektionen, die für Endnutzer nicht relevant sind, wohl aber für Forscher und Entwickler: Hierunter fallen vor allem aus den Dokumentenmengen gewonnene Metadaten wie beispielsweise Häufigkeitsverteilungen von Wörtern oder Informationen über Spamdokumente.

Es ist höchste Zeit, dass wir mit der Arbeit beginnen und endlich eine offene Infrastruktur schaffen, auf deren Basis Dienste aufgebaut werden können, die uns in unserem Wissenserwerb unterstützen – jenseits der heutigen Google-Monokultur.

Eine ausführliche Beschreibung der Idee findet sich in dem Beitrag „Why we need an independent index of the Web“, der im jetzt veröffentlichten Reader „Society of the Query – Reflections on Web Search“ (Institute of Network Cultures, Amsterdam 2014) erschienen ist. Das von René König und Miriam Rasch herausgegebene Buch lässt sich auch online lesen.

Zum Thema bei iRights

Google: Ein Werkzeug des Wissens, eine technokratische Macht

Google vs. Verbraucherschützer: Kleingedrucktes bleibt vorerst beharrlich

Google-Ranking: Herabstufung ist „Zensur light“

Google muss sich Datenschützern erklären

8 Kommentare

1 Daniel Graf am 20. Mai, 2014 um 10:46

Interessanter Beitrag, vielen Dank. Gar nicht erwähnt werden Meta-Suchmaschinen wie Ixquick. Hat das einen bestimmten Grund? Ich fände spannend zu erfahren, wie Sie diese Option bewerten.
2 Interessante Idee: “Warum wir einen freien Web-Index brauchen” irights.info/artikel/warum-wir… – Idee, die @evgenymorozov heute in der FAZ wünschte | Stromabnehmer am 20. Mai, 2014 um 17:14

[…] #mefo14 Interessante Idee: “Warum wir einen freien Web-Index brauchen” irights.info/artikel/warum-wir… – Idee, die @evgenymorozov heute in der FAZ […]
3 Dr. Christian Kohlschütter am 22. Mai, 2014 um 07:23

Zugegeben, vor zehn Jahren habe ich auch mal vorgeschlagen, eine öffentlich-rechtliche Suchmaschine aufzubauen. Da war ich aber noch wissenschaftlicher Mitarbeiter auf einer befristeten Drittmittel-Stelle und hätte mich sehr über die Fördergelder gefreut…

Warum soll aber eigentlich der Staat (mit Steuergeldern) ein halbes Dutzend Startups mit dem Betrieb eines Web-Index subventionieren? Und denken wir erst mal gar nicht an die dann zwangsläufig politische Debatte, was in den Index aufgenommen werden soll bzw. darf, und was außen vor bleiben muss.

Was man bei der Diskussion nicht vergessen darf: Einen öffentlich zugänglichen Web-Crawl mit Milliarden von Seiten gibt es bereits, http://commoncrawl.org/ — und mit dem Internet Archive haben wir sogar eine historische Sammlung über bald 2 Jahrzehnte, http://www.archive.org/

Wenn überhaupt, dann sollte man diese Angebote fördern, anstatt neue Behördenmonstren zu schaffen, die Häufigkeitsverteilungen von Wörtern standardisieren.
4 Dirk Lewandowski am 26. Mai, 2014 um 15:42

Kurze Antworten auf die bisherigen Kommentare:

1. Metasuchmaschinen
Metasuchmaschinen grasen ja immer nur die Top-X-Treffer der gebenden Suchmaschinen ab, von daher sind ihre Ergebnisse stark von den Top-Ergebnissen der gebenden Suchmaschinen determiniert. Außerdem haben die Metasuchmaschinen ja keinen Zugriff auf die vollständigen Dokumentrepräsentationen der gebenden Suchmaschinen, sondern nur auf die knappen Informationen aus den Trefferbeschreibungen in den Ergebnislisten. Metasuchmaschinen sind daher auf der einen Seite keine echten Alternativen, auf der anderen Seite ist auch der Ansatz nicht geeignet, echte Alternativen zu etablieren.

2. Warum sollte der Staat einen Web-Index subventionieren?
Gegenfrage: Warum sollte der Staat mit Steuergeldern andere Infrastrukturen wie Straßen, Stromnetze, Bibliotheken usw. subventionieren? Um sicherzustellen, dass diese von allen Bürgern zu fairen Bedingungen genutzt werden können.

3. Bestehenden “Alternativen” wie Commoncrawl und Internet Archive
Beiden Initiativen kann man nicht hoch genug loben. Was sie leisten, unterscheidet sich allerdings fundamental von dem, was ich in meinem Text beschrieben habe: CC und IA haben jeweils ja “nur” einen *statischen* Crawl, der sich für den Aufbau von alternativen Suchmaschinen gerade *nicht* eignet. Das schließt natürlich eine Kooperation mit diesen Initiativen nicht aus!
5 Tobias Sasse / Unbubble.eu am 27. Jul, 2014 um 12:31

Ich begrüße diese gesamte Initiative sehr, denn jeder weitere verlässliche Index verbessert die Informationslage. Aber ich halte die These, dass Metasuchmaschinen keine Alternative sein können, für nicht richtig. Wenn eine Metasuchmaschine viele verschiedene Indizes zusammenträgt, dann greift sie ja gewissermaßen schon auf etwas zu, was Sie mit einem gemeinsamen Index zentralisieren möchten. Nur ist sie dabei nicht auf einen einzelnen Index angewiesen.

Ein zentraler Index birgt das Risiko, dass er eben nur wieder ein “single point of failure” ist und früher oder später aller Erfahrung nach missbraucht werden wird. Wie schützen Sie ein solches, zentrales System, vor der unangemessenen Einflussnahme z.B. durch Staat, Betreiber oder andere Interessengruppen? Information muss m. E. diversifiziert werden, nur so kann sie neutral stattfinden.
6 Henry Zeitler am 27. Jul, 2014 um 23:37

Toller Artikel. Ich möchte dazu kurz folgendes anmerken.

Der Auslöser einer Suche über eine Suchmaschine ist das Bedürfnis nach einer Information, nicht die Suche nach einer bestimmten Webseite. Google stellt aus rein wirtschaftlichen Gründen die Webseite als Transportmittel der Information in den Vordergrund, denn die Betreiber einer solchen sind seine wichtigsten Kunden. Ich denke, eine Alternative zu Google kann nur eine Suchmaschine sein, die keine Webseiten rankt, sondern lediglich relevante Daten, bzw. Informationen. Willkommen im Semantic Web.

Desweiteren ist Google derzeit konkurrenzlos, weil Google in der Lage ist (finanziell und zeitlich) Innovation zu schaffen und nicht auf sie reagieren zu müssen.
7 Til am 22. Aug, 2014 um 12:41

“Würden wir nicht nur die eine Suchmaschine verwenden, würden sich unsere Daten auf die unterschiedlichen Anbieter verteilen; keiner dieser Anbieter wüsste alles über uns.” -> Leider gibt es schon seit langem einen regen Austausch von Daten zwischen verschiedenen Datensammlern. Dazu gehören nicht nur Amazon, Apple und Facebook, sondern auch Firmen von denen nie jemand gehört hat.
Zumindest was diesen Punkt betrifft, müsste man entweder einen völlig anderen Weg gehen, oder die Perspektive ändern und akzeptieren, dass (Meta-)Daten über uns existieren und genutzt werden.
8 Ein offener Web-Index für Open Science? | TIB|BlogTIB|Blog am 12. Mrz, 2015 um 15:57

[…] in den letzten Wochen Aufmerksamkeit erregt. Ich habe diese Initiative von Dirk Lewandowski (vgl. seinen Artikel bei iRights.info zum Thema) von Beginn an begleitet und am Aufruf mitgearbeitet – vor allem deshalb, weil ich […]