Seth Stephens-Davidowitz' Buch "Everybody Lies – Big Data, New Data, and what the internet can tell us about who we really are" ("Alle lügen – Big Data, New Data, und was uns das Internet darüber verraten kann, wer wir wirklich sind") ist erst vor wenigen Tagen erschienen, hat aber das Zeug, ein globaler Bestseller zu werden.

Der New-York-Times-Autor und Harvard-Absolvent war unter anderem Analyst bei Google und beschäftigt sich seit Jahren mit der Auswertung großer Datensätze. Die Ergebnisse seiner Untersuchungen publiziert er schon seit geraumer Zeit regelmäßig in der New York Times. Nun hat er sie in diesem Buch, von dem leider noch keine deutsche Übersetzung vorliegt, zusammengefasst, und sie liefern einen guten Einblick in das wahre Potenzial von Big Data.

Stephens-Davidowitz betont in seinem Werk vor allem die neue Qualität der Daten, die dank der Auswertung beispielsweise von Google-Suchanfragen möglich werde. Während Meinungsforscher am Telefon oder vor Wahllokalen nur eingeschränkt damit rechnen dürfen, ehrliche Antworten zu erhalten, dürfte kaum jemand im Internet nach Dingen suchen, die ihn nicht interessieren. Oder anders formuliert: Wer als Nichtmediziner "Symptome Lungenkrebs" googelt, tut dies in der Regel nicht zufällig oder aus allgemeinem Interesse. Der Suchmaschine werden intimste Dinge anvertraut, die man vielfach nicht einmal gegenüber besten Freunden oder Lebenspartnern aussprechen würde.

Nie dagewesene Informationstiefe
In seinem Buch legt der Autor dar, wie sich mit geschickter Auswertung genau solcher Suchabfragen Dinge recherchieren lassen, die man auf anderen Wegen wohl niemals herausfinden könnte. Ein Beispiel dafür ist der in den USA auch heute noch allgegenwärtige Rassismus. Die mit der Präsidentschaft Barack Obamas verstärkte Überzeugung, der Großteil der aufgeklärten, weißen US-Amerikaner hätten keine Vorbehalte mehr gegenüber Afro-Amerikanern und anderen Minderheiten, erweist sich laut Stephens-Davidowitz als falsch. Und der Rassismus beschränkt sich seinen Analysen zufolge weder auf konservative Süd-Staaten noch auf arme, bildungsferne Bevölkerungsschichten.

Für den New Yorker war auch das Wahlergebnis zu Gunsten Donald Trumps keineswegs so überraschend wie für den Rest der Welt. Allein aus der Konstellation der Suchabfragen "Trump – Clinton" oder "Clinton – Trump" ließ sich seiner Aussage zufolge herauslesen, welcher Kandidat beim Suchenden favorisiert war.

Wirtschaftlicher Nutzen fragwürdig
Manches, was auf diesem Weg entdeckt wird, ist nicht neu, sondern wurde auch mit Hilfe anderer Ansätze recherchiert, andere Erkenntnisse widersprechen hingegen der landläufigen Meinung. So stellt sich in einer Auswertung der Kinokarten-Verkäufe und der stündlichen US-Kriminalstatistik heraus, dass in der Zeit, nachdem gewalttätige Filme in US-Kinos gezeigt werden, die Zahl der Verbrechen ab- und nicht zunimmt. Die Erklärung: Junge, gewaltbereite Männer, die bevorzugt brutale Filme sehen, begehen im Kino selbst keine Verbrechen, und aufgrund der Tatsache, dass in Kinos kein Alkohol ausgeschenkt wird, stellen sie auch danach weniger an.

Das alles mag für Soziologen interessant sein, aber der wirtschaftliche Nutzwert hält sich in Grenzen. Der Hype um Big Data leitet sich davon ab, dass man hofft, damit in die Zukunft blicken zu können. Die sich hier vor allem aufdrängende Frage, ob man mit Hilfe von Big Data etwa auch die Kursentwicklung von Aktien vorhersagen kann, beantwortet Stephens-Davidowitz allerdings sinngemäß mit "nein", obwohl er davon überzeugt ist, dass führende Hedgefonds alles daransetzen, um jeden noch so kleinen Informationsvorsprung aus Big Data herauszuquetschen.

Vorsicht vor Schein-Zusammenhängen
Stephens-Davidowitz‘ Suche nach Möglichkeiten, die Börsenkurse vorherzusagen, erfolgten in Zusammenarbeit mit Lawrence "Larry" Summers, Wirtschaftsforscher und von 1999 bis 2001 Finanzminister der USA, aber alle Ideen und Ansätze blieben erfolglos. Generell ergaben sich mehrere Probleme: Auch wenn man wisse, wie viele Menschen "Apple-Aktie" googeln, wisse man nicht, ob sie die Aktie schon haben, kaufen oder verkaufen wollen. Noch größer sei die Gefahr, dem Phänomen der "Dimensionalität" auf den Leim zu gehen. Das von Statistikern gefürchtete Problem besteht – vereinfacht dargestellt – darin, dass es bei der Gegenüberstellung von großen Datensätzen zu Pseudo-Korrelationen kommt.

Wer etwa täglich 1.000 Münzen werfe und das Ergebnis der Veränderung des Aktienindex gegenüberstelle (Kopf heißt S&P500 steigt und umgekehrt), werde im Verlauf von zwei Handelsjahren eine Münze finden, die häufiger als die anderen "richtig" liege. Natürlich liegt das nicht an der Prognosekraft der Münze, sondern am Zufall. Bisher habe man zwar eine Vielzahl solcher "Münzen" gefunden, die Kurse lassen sich hingegen immer noch nicht prognostizieren. Ein Hedgefonds, der versuchte, auf Basis von Twitter-Tweets die Marktstimmung richtig vorherzusagen, wurde bereits nach einem Monat wieder geschlossen, weil sich zeigte, dass das System im echten Leben nicht funktioniert.

Demoskopen unter Druck
Während also professionelle Anleger kurzfristig keine Angst vor Big Data haben müssen, stellen die neuen Möglichkeiten für klassische Meinungsforschungsinstitute durchaus eine Bedrohung dar. Ihre Herangehensweise könnte schon bald hinfällig sein. Bisher war ihr Überleben trotz vieler Fehlprognosen – vor allem vor Wahlen – mangels Alternativen nicht gefährdet. Ausgeklügelte Big-Data-analysen könnten bewirken, dass die herkömmliche Befragung ausgedient hat.

Dass das Thema an Fahrt gewinnen dürfte, ist nicht zuletzt deshalb wahrscheinlich, weil sehr viele Daten, die man dafür benötigt, kostenlos für jedermann zugänglich sind. Wer möchte, kann heute schon unter https://trends.google.de/trends/ die Suchabfrage "Martin Schulz" vs. "Angela Merkel" starten und seine Schlüsse daraus ziehen – aktuell muss sich die Kanzlerin zumindest laut Google Trends noch keine Sorgen machen. (gf)