Digital Divide 20. September 2013 von

Wem soll Big Data dienen?

Je mehr Daten, desto besser – das ist der Ansatz von „Big Data”. Ein Konzept, das zunehmend auf Skepsis zu stoßen scheint. Aber nicht die Daten an sich sind das Problem, sondern wer sie nutzen kann und welche Regeln dafür gelten. Denn Big Data hat die Tendenz, die digitale Spaltung zu verstärken.

Hinter „Big Data” steckt ein großes Versprechen. In den Daten, die die digitale Welt unablässig produziert, schlummere ein Wissen, das nur noch gehoben werden muss – indem diese gesammelt, zusammengeführt und ausgewertet werden. „Wired”-Chef Chris Anderson glaubte in einem vielzitierten Essay sogar, die statistische Auswertung von Daten werde bald wissenschaftliche Theorien ersetzen.

Solche Heilsversprechen haben sich – wenig überraschend – nicht bewahrheitet, auch wenn die Techniken des Data Mining tatsächlich die Wissenschaft verändern. Big Data ist aber primär ein wirtschaftliches Thema: Mehr Effizienz für Unternehmen, zielgerichtete Werbung oder Vorhersagen über den Markt, wenn zum Beispiel eine Supermarkt-Kette die Äußerungen in sozialen Netzwerken auswertet und ihr Sortiment entsprechend anpasst. „Big Data zu nutzen, wird für Unternehmen zum Schlüsselfaktor für Wettbewerb und Wachstum”, heißt es etwa in einer McKinsey-Studie.

Was ist „Big Data”? Zu groß für Excel

Anschaulich wird das in einem Video der Firma Sqrrl, die unter diesem Namen ein Data-Mining-Tool anbietet. Wir sehen ein Daten-Eichhörnchen, das stapelweise Daten gehortet hat, aber nicht zu nutzen versteht, erklärt der Sprecher. Denn Datenschutz und andere Regulierungen verhindern, dass es die Daten auswerten kann. So bleiben sie im Silo ungenutzt eingesperrt. Doch die Entwickler von Sqrrl haben ein Werkzeug ersonnen, mit dem die Daten angeblich nicht mehr im Silo lagern müssen:

Das Programm „Sqrrl” ist eine kommerzielle Weiterentwicklung des Programms „Accumulo”. Entwickelt hat es der US-Geheimdienst NSA, um große Datenmassen verwalten zu können. Heute steht „Accumulo” als freie Software bereit. Man kann sich das Programm wie einige riesige Tabelle vorstellen – nur dass die Tabelle so groß ist, dass sie nicht als Datei auf einem Rechner am Schreibtisch, sondern übers Internet verteilt gespeichert und bearbeitet wird. Eine weit verbreitete, etwas saloppe Definition von „Big Data” heißt dann auch: Alles, was zu groß für eine Excel-Tabelle ist.

Die „Cell Level Security”, die von den Entwicklern angepriesen wird, erwuchs aus den Anforderungen der Arbeit der NSA: Jede Zelle der Tabelle kann nach Geheimdienstanforderungen klassifiziert werden, also zum Beispiel eine Einstufung als „streng geheim”, „vertraulich” und so weiter erhalten. Damit soll der Schatz von Big Data auch in der freien Wirtschaft gehoben werden – auch wenn Datenschützer durch eine Funktion wie „Cell Level Security” keineswegs beruhigt sein werden.

Erst sammeln, später auswerten

Mit dem Programm und seinen Auswertungsmöglichkeiten könnten Kundentransaktionen, E-Mail-Verkehr oder Aktivitäten in sozialen Netzwerken überwacht und „verdächtiges“ Verhalten erkannt werden, heißt es in einer Broschüre (PDF) des Unternehmens. Der typische Ansatz dabei: Daten verschiedener Quellen lassen sich kombinieren, statistisch auswerten und korrelieren – und man schaut, was sich ergibt. Gibt es interessante Muster, die weiterverfolgt werden können?

„Indem wir Datensätze zusammenbringen, konnten wir mit Accumulo Dinge in den Daten erkennen, die wir nicht entdeckt hätten, wenn wir sie uns unter diesem und jenem Gesichtspunkt angesehen hätten“, erklärte Dave Hurry, Chef der Informatikforschungsabteilung der NSA, der Information Week. Es ist ein Ansatz, der sich im Kern nicht groß von demjenigen unterscheidet, den Google-Forscher vor einigen Jahren in einem Aufsatz über Sprachverarbeitung (PDF) vorschlugen, wenngleich mit anderem Ziel: „Gehen Sie raus, sammeln Sie ein paar Daten und schauen Sie dann, was man damit machen kann“.

Beide Zitate bringen den Paradigmenwechsel zu „Big Data” auf den Punkt. Datenschützer standen dem Konzept lange eher reserviert gegenüber. Denn mit den hergebrachten Grundprinzipen des Datenschutzes in Europa steht der Ansatz auf dem Kriegsfuß. Da wären etwa die Gründsätze der Einwilligung und der Zweckbindung, nach der Nutzer der Sammlung ihrer Daten zustimmen müssen und diese nicht für alle möglichen, sondern nur für genau definierte Zwecke verwendet werden können. Oder der Grundsatz der Erforderlichkeit: Daten sammeln, und später schauen, was man damit machen kann, das geht nicht.

Datenschutz entdeckt Big Data

In letzter Zeit scheint sich ein gewisser Wandel zu vollziehen: Thilo Weichert, Chef des Schleswig-Holsteiner Datenschutzzentrums ULD, betont, dass auch „Big Data”-Auswertungen datenschutzkonform möglich seien – wenn etwa die Daten soweit anonymisiert würden, dass sie Rückschlüsse auf einzelne Personen nicht mehr erlaubten. Dahinter steht wohl die Einsicht, dass sich der Trend zu immer größeren Datensammlungen kaum mehr stoppen lässt, weil technische Entwicklung und wirtschaftliche Verwertungsmöglichkeiten stärker wiegen. Weicherts Behörde hat einem System zur Kassenauswertung eines Discounters oder Targeting-Systemen in der Online-Werbung ihr Gütesiegel zuerkannt.

Dennoch stößt „Big Data” nach wie vor auf Skepsis – was man gut oder schlecht finden kann. Glaubt man einer Untersuchung im Auftrag der Deutschen Telekom, dann ist infolge der Enthüllungen im Überwachungs- und Spionageskandal in der Bevölkerung die Bereitschaft zurückgegangen, an umfangreichen Datensammlungen und -auswertungen teilzunehmen, egal ob es staatliche oder privatwirtschaftliche Sammlungen sind. So gaben etwa im Juni noch eine knappe Mehrheit der Befragten an, sie fänden es in Ordnung, wenn Unternehmen Diskussionsforen im Internet auswerten, um Produkte zu verbessern. Im August zeigte sich mit 57 Prozent die Mehrheit der Befragten kritisch.

Die digitale Spaltung

Die Diskussion über Chancen und Risiken von „Big Data” ist allerdings nicht neu: Danah Boyd, Internetforscherin bei Microsoft, stellt eine neue digitale Spaltung fest. „Wer hat Zugang? Für welche Zwecke? In welchem Zusammenhang? Mit welchen Begrenzungen?” fragt sie in einem Aufsatz. Und der Medienwissenschaftler Lev Manovich sah drei „Daten-Klassen” am Entstehen: Zu den Datenproduzenten gehöre praktisch jeder, der ein Handy besitzt oder das Web benutzt. Es folge die Klasse derjenigen, die die Mittel zum Datensammeln besitzen, noch kleiner aber sei die Gruppe derer, die über Zugang und Fähigkeiten zur Auswertung verfügten.

Nach den Erkenntnissen über Prism, Tempora & Co. lässt sich das Modell um eine weitere Klasse ergänzen: Zwar sitzen IT-Riesen wie Amazon oder Google bereits auf umfangreichen Datenbergen. Die am weitesten entwickelten Geheimdienste aber bilden eine Daten-Superelite. Sie können sich aussuchen, bei welchen IT-Unternehmen sie sich anstöpseln oder wo Internetknoten angebohrt werden. Aber auch innerhalb der Staaten, zwischen Regierungen und Behörden ist eine Spaltung in „Daten-Begüterte” und „Daten-Habenichtse” entstanden, wie der Internet-Rechtsprofessor Peter Swire konstatiert. Wer im technischen Wettrennen vorne liegt, hat Zugang zur Cloud, in der ein immer größerer Teil der Informationen lagert, die früher an anderen Stellen abgegriffen wurden.

Die Autoren Viktor Mayer-Schönberger und Kenneth Cukier sprechen sogar vor einer „Diktatur der Daten”, in der „wir uns von Daten derart regieren lassen, dass es mehr Schaden als Nutzen bringt”. Aber nicht „die Daten” regieren uns, sie sind ein Mittel für verschiedene Zwecke. Wer Zugang zu Daten hat und wer nicht, wer sie wann und wo erhebt, welche Regeln fürs Sammeln und Verarbeiten gelten, welche Rechte Nutzer haben, wer die Mittel zum Auswerten hat – all das wird darüber entscheiden, ob die Segnungen von „Big Data” nur ein Versprechen bleiben oder zum Nutzen für viele eingesetzt werden können.

Zum Thema bei iRights

Zum Thema im Internet