Interview 23. Oktober 2014 von David Pachali

Yvonne Hofstetter, was ist wirklich neu an „Big Data“?

Alle reden von „Big Data“, die Technologien dahinter sind aber keine neue Erfindung, so die Unternehmerin Yvonne Hofstetter im iRights.info-Interview. „Datenfusion“ ist etwa in der militärischen Anwendung schon lange bekannt. Neu aber ist, dass sie zunehmend alle gesellschaftlichen Bereiche durchdringt. Einer Offenlegung von Algorithmen steht Hofstetter skeptisch gegenüber, fordert aber stärkere Kontrollmechanismen.

iRights.info: Was ist „Big Data“, geht es dabei einfach nur um viele Daten?

Yvonne Hofstetter: „Big Data“ ist eine Wortschöpfung, die seit den letzten vier, fünf Jahren in der Industrie herumgeistert. Jetzt hat sie langsam die gesamte Gesellschaft erreicht. Einmal verbergen sich dahinter große Datenmengen, das ist richtig, aber das allein bedeutet es nicht. Solche großen Datenmengen haben wir natürlich in den letzten zwei, drei Jahren in Massen erzeugt, seitdem wir viel mit dem Smartphone unterwegs sind. Da fällt einiges an. Aber tatsächlich versteckt sich hinter Big Data eine Technologie, die schon relativ alt ist – man kann sagen, ungefähr zwanzig Jahre. Diese Technologie ist in einer bestimmten Industrie im operativen Einsatz, in der Rüstungsindustrie. Letztlich kann man wie oft behaupten: Der Krieg ist der Vater aller Dinge. Provokant kann man fast sagen: Er ist auch der Vater von Big Data.

Was sich technologisch hinter Big Data verbirgt, ist künstliche Intelligenz. Nur künstliche Intelligenz ist in der Lage, die heute von uns erzeugten großen und unstrukturierten Datenmengen so zu verarbeiten, das Sinn daraus entstehen kann. Wir haben hier drei Stufen: Die erste Stufe ist die ‚Datensammelei‘. Aus ganz verschiedenen Quellen werden Daten gesammelt: Wir stellen Bilder ein, wir schreiben E-Mails, wir bloggen, wir veröffentlichen Facebook-Posts, wir kaufen online ein. Dabei erzeugen wir überall Daten und hinterlassen überall Datenspuren. All diese Daten werden natürlich gesammelt.

Datensammeln – neue Informationen erzeugen – Kontrollstrategien

Das alles wäre kein Problem, wenn die Daten einfach in separaten Datensilos gehalten würden. Das ist aber nicht der Fall, es gibt Datenbroker, die mit diesen Daten handeln. Unsere Kreditkartendetails zum Beispiel sind ganz offen auf Listen vorhanden, wenn wir einkaufen gehen. Sie werden weltweit gehandelt, also kann jeder über Datenbroker diese Details kaufen. (Es bleibt allerdings anzumerken, dass Datenbrokerage vielfach eine illegale Aktivität ist, auf deren Ahndung sich die zuständigen Dezernate der Polizeibehörden jetzt verstärkt einstellen.)

Yvonne Hofstetter studierte Rechtswissenschaften, sie ist seit 1999 in Softwareunternehmen tätig. Seit 2009 ist sie Geschäftsführerin der Teramark Technologies, einer Firma zur Auswertung großer Datenmengen, darunter in der Rüstungsindustrie und im algorithmischen Börsenhandel. Im September ist ihr Buch „Sie wissen alles“ erschienen.

Dann gibt es in der Big-Data-Technologie eine zweite Stufe, die darin besteht, diese Daten zusammenzuführen, zu aggregieren und neue Informationen daraus zu erzeugen. Der Begriff für dieses Vorgehen kommt aus dem Militär, das ist die sogenannte Datenfusion oder auch „Multi-Sensor-Datenfusion“. Hier gibt es also diese einzelnen Stufen: Daten sammeln, Daten aggregieren – neue Informationen erzeugen, Prognosen über unser Verhalten erstellen.

Dann kommt etwas ganz perfides hinzu, die dritte Stufe der Datenfusion. Dabei geht es um die sogenannten Kontrollstrategien. Das heißt, auf der Basis dieser Prognosen – wir bezeichnen das als Situationsanalyse – werden Strategien aufgesetzt, um unser Verhalten ganz gezielt zu beeinflussen, um uns zu manipulieren. Big Data bedeutet genau dies, Datenfusion in drei Stufen. Und diese ist gut erforscht, beim Militär schon lange im operativen Einsatz – und erreicht uns jetzt alle in einer Kommerzialisierungswelle.

iRights.info: Wie funktioniert so eine Big-Data-Anwendung, zum Beispiel an der Börse?

In der Finanzindustrie kann man sich das so vorstellen: Wenn ich Aktientitel handeln möchte, gibt es ganz verschiedene Datenquellen, die sich auf Aktien beziehen. Wir haben beispielsweise Firmenmitteilungen, wir haben EZB-Pressekonferenzen, auf denen es um Basiszinssätze geht, wir haben das generelle sentiment, also die gefühlt positive oder negative Stimmung in der Wirtschaft.

Das alles sind Rohdaten, die wir in einem ersten Schritt sammeln können. Die Daten sind auch öffentlich übers Internet verfügbar; Preise von entsprechenden Aktientiteln gehören natürlich auch dazu – im Gegensatz zu Firmennachrichten, die aus Text bestehen, sind Preisstellungen „harte“ quantitative Größen, also Zahlen. Jetzt geht es darum, sich ein Bild zu machen, wie sich der Markt entwickeln könnte. Das machen heute in der Regel noch Menschen, Portfolio-Manager, die in den Versicherungen sitzen oder in Vermögensverwaltungs-Unternehmen.

Automatisierter Handel mit permanentem Nachjustieren

Aber das kann auch eine Maschine. Eine Maschine kann sich diese Rohdaten nehmen und erstellt sich ein Bild über die Situation am Aktienmarkt. In der dritten Stufe geht es darum, zu sagen: Jetzt muss ich eine Entscheidung treffen. Kaufe ich eine Google-Aktie oder nicht? Oder verkaufe (shorte) ich diese Aktie? Was passiert dann mit dieser offenen Position, die ich am Markt eingegangen bin?

Es ist die Kontrollstrategie, die diese Handelsentscheidung trifft, mehr noch, die Handelsentscheidung permanent überwacht und nachsteuert: Ich habe hundert Google-Aktien gekauft, jetzt ist ein guter Zeitpunkt, um zwanzig davon zu verkaufen. Ich halte nur achtzig und kann zum späteren Zeitpunkt sagen, dass ich auf 120 Aktien aufstocke. Das ist die Kontrollstrategie, das Nachsteuern und die Entscheidung – eine konkrete Anwendung der drei Stufen.

iRights.info: Man kann sich aber viele nützliche Anwendungen vorstellen. Wann werden sie problematisch?

Ursprünglich wurde diese Technologie nicht dafür entwickelt, dass man Menschen damit manipuliert. Ein ganz wesentlicher Unterschied liegt im Gegenstand der Überwachung, der Manipulation und Beeinflussung. Es ist etwas anderes, wenn ich zum Beispiel versuche, eine militärische Lage zu beeinflussen oder einen Gegenstand des Wirtschaftens wie etwa eine Produktionsstraße. Oder wenn ich versuche, Verkehrsflüsse zu steuern. Dafür sind diese Kontrollstrategien und die Datenfusion gut. Problematisch und ethisch fragwürdig wird es, wenn das Ziel der Beeinflussung, der Datensammelei, der Auswertung und der Prognose der Mensch ist. Der Mensch hat eine herausgehobene Stellung, die ihm die Menschenwürde zurechnet; sie ist bei uns im Grundgesetz verankert.

Kontrollrechte faktisch nicht vorhanden

Aus dieser Menschenwürde heraus ergeben sich viele Freiheiten, Kontrollrechte über meine Daten – und auch die Freiheit, dass man mich in Ruhe lässt mit dem ganzen digitalen Mist. Wenn ich aber die Werte umkehre und sage, der Mensch gehört auch zu den Objekten des Wirtschaftens und ich kann mit ihm dasselbe machen wie mit einer Produktionsstraße, dann ist es kritisch und da wird es problematisch. Das bedeutet auf der einen Seite, dass ich den Menschen nicht der Technik unterordnen sollte. Wir müssen Lösungen finden, die die Technik weiterhin dem Menschen unterordnen. Das heißt konkret beispielsweise Kontrollrechte über meine Daten, die ich ja heute gar nicht habe.

Oder: Meine Daten sind die Wirkursache für Milliardengewinne bei den Internetgiganten, ich habe aber daran keinen Anteil, obwohl ich die Ursache dieser Gewinne bin. Hier sollte man vielleicht darüber nachdenken, ob man einen Geldbetrag erhalten sollte, wenn man persönliche Daten zur Verfügung stellt – wie bei der menschlichen Arbeit. Sie arbeiten ja auch nicht kostenlos für ein Unternehmen, sondern stellen menschliche Arbeit zur Verfügung, die für Sie existenziell wichtig ist. Dafür bekommen Sie eine Gegenleistung. Hier müsste man eigentlich ähnlich sagen: Ich stelle existenziell wichtige Daten von mir zur Verfügung, du machst damit viel Geld, bitte gib mir davon etwas ab.

iRights.info: Sollten Unternehmen Algorithmen offenlegen müssen, damit wir Kontrolle über die Daten behalten?

Problematisch ist, dass wir eigentlich gar nicht feststellen und verifizieren können, wie gut die Algorithmen sind und ob sie richtig entscheiden. Datenfusion arbeitet mit Wahrscheinlichkeiten. Da werden Sie beispielsweise mit einer Wahrscheinlichkeit von 35 Prozent als potenzieller Straftäter bewertet und klassifiziert; nur 65 Prozent sprechen dafür, dass Sie ein normaler Bürger sind. Dann ist die Frage, wie zuverlässig diese Bewertung ist – wie gut der Algorithmus ist, welches mathematische Modell dahinter steht. Darauf haben wir keinen Einfluss und da haben wir auch keine Einsicht.

Problematisch wird es zum Beispiel bei Unternehmen wie der „Creditreform“, der Schufa und ähnlichen Einrichtungen, die Scoringverfahren entwickelt haben und unsere Kreditwürdigkeit bewerten. Es kann ganz existenziell sein, wenn hier jemand falsch bewertet und klassifiziert wird. Diese Unternehmen sagen uns aber: Wir möchten diese Algorithmen geheim halten, das sind Betriebsgeheimnisse. Da stimme ich überein; das ist in Ordnung. Trotzdem müssen wir Möglichkeiten haben, die Qualität dieser Algorithmen und Modelle zu beurteilen.

Kontrolle über Güte von Algorithmen und Datenbasis gefragt

Hier gibt es bereits Möglichkeiten. Im Militär ist es längst schon gang und gäbe; es gibt Verfahren, die Güte eines Algorithmus zu bewerten ohne den Algorithmus selbst anzuschauen. Es gibt das sogenannte IV&V-Verfahren – independent validation and verification. Da schaut man einen Algorithmus oder die Ergebnisse genau an und fragt beispielsweise: Was ist die Datenbasis, mit der der Algorithmus arbeitet? Sind die Daten hier vollständig? Sind die Daten veraltet? Sind die Daten korrekt? Was ist eine Referenzdatenbasis? Wie viel Abweichung bekomme ich in meinen Ergebnissen, wie ist die Trefferquote von meinem Algorithmus?

Wenn ich bei Scoring-Verfahren weiß, dass ich eine Fehlerquote von 20 Prozent habe, dann müsste zum Beispiel eine Schufa oder die „Creditreform“ sagen: Sehr geehrter Anfragender, wir haben eine zwanzigprozentige Fehlerquote – das ist übrigens enorm hoch! –, bitte holen Sie sich irgendwo noch eine andere Bewertung ein, sie ist sonst zu unzuverlässig. Das machen diese Unternehmen nicht, obwohl es wissenschaftlich gesehen sonst unseriös ist. Wissenschaftler würden so nicht vorgehen.

David Pachali war bis Juli 2018 Redaktionsleiter von iRights.info. Zuvor arbeitete er als freier Journalist u.a. für taz, iRights.info, ZDF Hyperland, Meedia und als Redakteur bei Carta.info. Twitter: @dpachali

Zum Thema bei iRights

Meine Daten, meine Rechte und wie man sie durchsetzt

Im Stau dank Edward Snowden

Smarte Stadt, gefährliche Stadt

Allwissende Händler, genügsame Datenschützer

Was uns Facebooks Experimente lehren

Zum Thema im Internet

Besprechung von „Sie wissen alles“ bei „Brasch & Buch“