Direkt zum Inhalt
Datenanalysen

So entwickelte die New York Times eine zukunftsfähige Datenarchitektur

18. Mai 2021
Ed Podojil

Executive Director, Data Products, The New York Times

Wie praktisch jedes andere Unternehmen auf der Welt auch musste sich die New York Times im vergangenen Jahr schnell an die neuen Gegebenheiten anpassen, um die Herausforderungen der Corona-Pandemie zu meistern. Wir hatten das Glück, dass wir uns durch unser Datensystem in Google Cloud schnell und effizient auf die neue Normalität einstellen konnten.

So nutzen wir Daten

Wir betreiben eine End-to-End-Datenplattform. Zum einen arbeiten wir sehr eng mit unseren Produktteams zusammen und erheben Daten, die für sie von Interesse sind – zum Beispiel, welche Artikel gelesen werden oder wie lange sich Nutzer:innen auf der Website aufhalten. Wir erfassen regelmäßig Messdaten zu unserer Leserschaft, um zu erfahren, aus welchen Zielgruppen sie sich zusammensetzt und wie Leser:innen unsere Website finden oder unsere Apps nutzen. Diese Daten geben wir dann für die ausführliche Auswertung an Analyst:innen weiter.

Zum anderen interessiert sich auch die Redaktion für unsere Leserschaft. Deshalb entwickeln wir Tools, mit denen sich nachvollziehen lässt, auf welche Weise Leser:innen über die Google Suche und soziale Medien zur New York Times kommen und wie sie sich auf unseren Seiten verhalten. Anhand dieser Daten entscheidet die Redaktion dann, welche Informationen auf der Startseite oder in Push-Benachrichtigungen angezeigt werden.

Was uns unter dem Strich interessiert, sind Verhaltensanalysen, d. h., wie Besucher:innen unsere Website und unsere Apps nutzen. Es geht uns darum, Verhaltensmuster und die Faktoren oder Funktionen zu erkennen, die Nutzer:innen dazu bringen, sich zu registrieren und unsere Zeitung zu abonnieren. 

Darüber hinaus nutzen wir Daten, um Personalisierungsmöglichkeiten zu entwickeln. Auf diesem Weg bieten wir unseren Nutzer:innen neue Inhalte oder Beiträge an, die sie sonst vielleicht nicht lesen würden. Außerdem verwenden wir unsere Daten, um Nutzenden über unser Targeting-System passende Botschaften zu unseren Abomodellen zu senden.

Gründe für die Migration zu Google Cloud

Als ich vor mehr als fünf Jahren zur New York Times kam, erfüllte die Datenarchitektur unsere Zwecke nicht. Die Infrastruktur sammelte Daten, die die Analyst:innen nur unter großem Aufwand täglich auswerten konnte. Außerdem kam es beim Streaming dieser Daten in unser System und unsere Umgebung zu Unterbrechungen. Wir führten dann immer eine Abfrage aus und holten uns erst einmal einen Kaffee, in der Hoffnung, dass die Abfrage bis dahin fertig war oder die richtigen Daten geliefert hatte. Das funktionierte nicht immer zuverlässig.

Wir erkannten, dass Hadoop keine passende lokale Lösung für uns war, und wandten wir uns daher an das Google Cloud-Team. Unsere digitale Transformation startete mit der Migration zu BigQuery, einem vollständig verwalteten serverlosen Data Warehouse. Der Zeitplan für die Migration war ziemlich knapp bemessen und startete mit den Analysen. Unsere Analyst:innen erhielten ein System der Spitzenklasse.

Als eine zentrale Anforderung musste die neue Datenarchitektur den Analyst:innen ein Arbeitstempo erlauben, in dem sie ihren Kolleg:innen innerhalb der geforderten Zeit aussagekräftige Ergebnisse liefern konnten. Für unsere Analyst:innen war der Wechsel zu BigQuery ein Unterschied wie Tag und Nacht. Ich weiß noch, wie mein Manager seine erste BigQuery-Abfrage ausführte und dann einen Kaffee holen wollte – die Abfrage war jedoch fertig, bevor er aufgestanden war. Unsere Analyst:innen erzählen diese Geschichte bis heute.

Wir hatten beim Wechsel zu BigQuery Sorge, dass unsere anderen Systeme nicht richtig skalieren würden. Vor zwei Jahren wussten wir nicht sicher, ob wir in der Lage sein würden, vertikal auf die Besuchszahlen zu skalieren, die für den Tag der Wahl zu erwarten waren. Bis dahin konnten wir uns mit einer Notlösung behelfen, aber wir wussten, dass wir nur zwei Jahre Zeit hatten, um eine zuverlässige Dauerlösung zu finden.

In dieser Zeit verschoben wir unsere Streamingpipeline zu Google Cloud. Dazu nutzten wir in erster Linie App Engine, eine flexible Umgebung, mit der wir Änderungen und Anforderungen je nach Bedarf schnell skalieren konnten. Dataflow und Pub/Sub waren für das Datenmanagement ebenfalls wichtig. Im vierten Quartal 2020 verbuchten wir mit 273 Millionen Leser:innen weltweit die höchsten Besuchszahlen aller Zeiten. Vier Tage in Folge bewältigten unsere Seiten so viele Zugriffe wie noch bei keiner anderen Wahl zuvor – und das ohne Datenverluste.

Vor ein paar Jahren war ich bei unserem Legacy-System einmal bis drei Uhr morgens damit beschäftigt, die Ausführung von benötigten Daten aufrechtzuerhalten. Dieses Jahr lehnte ich mich bei der Wahl entspannt zurück und gönnte mir einen riesigen Eisbecher, da wir unsere Datenumgebung jetzt besser verwalten und für die Kolleg:innen in der Redaktion höhere Erwartungen an Datenaufnahme, Analyse und Ergebnisse wecken und erfüllen können.

So wirkte sich die Corona-Pandemie auf unsere weitere Planung aus

Die Corona-Pandemie stand natürlich nicht auf dem Plan meines Teams für 2020. Dazu sollte erwähnt werden, dass die New York Times an sich kein Datenunternehmen ist. Unsere Aufgabe ist es, unsere Nutzer:innen Tag für Tag auf Papier, über Apps oder unsere Website über die aktuellen Nachrichten zu informieren. Die Redaktion hatte nicht damit gerechnet, dass wir eine gigantische Datenbank zum Thema Coronavirus aufbauen würden, mit der wir die täglichen Nachrichtenartikel ergänzen. 

Unsere Redaktion arbeitet schnell und unser Entwicklungsteam hat eines der vollständigsten Datasets zu COVID-19 in den USA aufgebaut. Zusammen mit Google entschied sich die New York Times, diese Daten über BigQuery und das öffentliche COVID-19-Dataset von Google öffentlich zur Verfügung zu stellen. Mehr zur Entwicklung unserer Cloud-Architektur erfahren Sie in diesem Video:

Video Thumbnail

Flexibles Konzept

Viele unserer Teams nutzen Google Cloud. Sie wählen die nötigen Services aus dem Angebot aus und definieren Projektanforderungen nun in dem Wissen, dass diese Tools verfügbar sind.

Für die Datenplattform der New York Times müssen wir die Prioritäten für unsere Entwicklungstätigkeit festlegen. Da wir uns über den Data Analytics Customer Council mit den Google-Produktteams austauschen, bleiben wir über die Pläne für BigQuery und die Datenanalyse auf dem Laufenden. Das ist ein wichtiges Kriterium für die Ausrichtung unserer eigenen Entwicklungstätigkeit. Um Tools wie BigQuery BI Engine zu nutzen, haben wir zum Beispiel Tools wie unsere Data Reporting API entwickelt, die Daten direkt von BigQuery ausliest. Mit diesem Ansatz können unsere Analyst:innen ihre Bereiche hinsichtlich Dimensionen und Messwerten sorgfältiger verwalten, da sie sich nicht um Mechanismen zum Cachen ihrer Daten kümmern müssen. Mit dieser Klarheit können wir besser planen, wie sich die New York Times in der neuen Normalität und in Zukunft entwickeln soll.

Auf unserer Karriereseite erfahren Sie mehr zu den Datenteams bei der New York Times. Zudem finden Sie im NYT-Data Blog viele interessante Artikel zum Thema.

Gepostet in