L'évolution de l'architecture de données au New York Times
Ed Podojil
Executive Director, Data Products, The New York Times
Comme presque toutes les entreprises de la planète, le New York Times a dû rapidement s'adapter aux défis imposés par la pandémie de coronavirus en 2020. Par chance, notre système de données associé à Google Cloud nous a permis de nous adapter rapidement et efficacement à la nouvelle normalité.
Comment nous utilisons les données
Avec notre plate-forme de données end-to-end, nous collaborons étroitement avec nos équipes produit afin de collecter les données qui les intéressent, comme les articles lus par les utilisateurs et le temps qu'ils passent sur le site. Nous mesurons fréquemment notre audience afin de comprendre nos segments d'utilisateurs et de savoir comment ils accèdent à notre site ou utilisent nos applications. Nous transmettons ensuite ces données aux analystes pour qu'ils effectuent une analyse de bout en bout.
De son côté, la salle de rédaction s’intéresse également à l'audience. Avec les outils que nous avons développés, ils ont davantage de visibilité : impact de la recherche Google ou des promotions sur les réseaux sociaux pour le New York Times, comportement des visiteurs sur nos pages. Grâce à ces données, la salle de rédaction peut prendre des décisions concernant les informations qui s'affichent sur notre page d'accueil ou dans les notifications push.
Enfin, nous attachons de l'importance à l'analyse comportementale, c'est-à-dire à la manière dont les utilisateurs naviguent sur notre site ou dans nos applications. Nous souhaitons comprendre les différents modèles comportementaux, ainsi que les facteurs ou les fonctionnalités qui incitent les utilisateurs à s'enregistrer ou à s'abonner à nos services.
De plus, nous exploitons les données pour créer ou améliorer les préférences de personnalisation, et ainsi proposer à nos utilisateurs des contenus inédits ou qu'ils n'auraient peut-être pas lus autrement. Notre système de ciblage combine nos données pour nous permettre d’envoyer des messages concernant nos offres d'abonnement adaptés au profil des utilisateurs.
Pourquoi Google Cloud
Lors de mon arrivée au New York Times il y a cinq ans, notre architecture de données ne répondait pas à nos besoins. Les données collectées par notre infrastructure étaient plus difficiles à traiter au quotidien pour les analystes. Nous avons rencontré également des difficultés liées au traitement par flux de ces données dans notre système et notre environnement. À l'époque, nous avions le temps de sortir boire un café le temps que la requête s’exécute. Voir même deux cafés.
Nous nous sommes rendu compte que Hadoop n'était pas la solution sur site qui nous convenait. C'est alors que nous avons contacté l'équipe Google Cloud. Le début de notre transformation numérique a été marqué par la migration de nos services vers BigQuery, leur entrepôt de base de données sans serveur entièrement géré. Nous devions respecter un calendrier de migration particulièrement serré, en commençant par les analyses. Nous avons veillé à fournir à nos analystes un système haut de gamme adapté à leurs besoins en termes de traitement de données.
Le fait que les analystes puissent travailler le plus rapidement possible pour fournir des livrables de qualité à leurs partenaires commerciaux a été l'un des éléments déterminants dans notre choix d'architecture de données. Pour nos analystes, la transition vers BigQuery a marqué le début d'une nouvelle ère. Je me souviens encore lorsque mon responsable a exécuté sa première requête sur BigQuery. Il était sur le point d’aller boire un café, mais il s’était à peine levé de sa chaise que la requête était terminée. Nos analystes en parlent encore aujourd'hui.
Lors de notre transition vers BigQuery, nous avions peur que le scaling de nos autres systèmes ne puisse s'effectuer correctement. Il y a deux ans, nous pensions ne pas pouvoir nous adapter au pic d'audience attendu le jour de l'élection. Nous sommes parvenus à confectionner une solution temporaire, mais nous savions qu'il ne nous restait que deux ans pour trouver une solution fiable et réelle.
Au cours de cette période, nous avons principalement déplacé notre pipeline de données vers Google Cloud à l'aide d'App Engine. Cet environnement flexible nous a aidés à ajuster rapidement le scaling selon les exigences et les besoins. Dataflow et Pub/Sub ont également joué un rôle important dans la gestion des données. Lors du 4e trimestre 2020, nous avons enregistré notre record en termes de trafic, avec 273 millions de lecteurs dans le monde entier. Pendant quatre jours d'affilée, nous avons enregistré un trafic plus élevé que les autres semaines d'élection. Nous avons eu le plaisir de constater que nous n'avions perdu aucune donnée.
Il y a quelques années, j'ai passé une nuit entière à veiller à la bonne exécution des données sur notre ancien système. Cette année, j'ai pu rester détendu tout en savourant de la crème glacée le soir de l'élection. En effet, j'étais en mesure de mieux gérer notre environnement de données, ce qui nous a permis de définir et de satisfaire des attentes plus exigeantes en termes d'ingestion de données, d'analyse et d'insight pour nos partenaires de la salle de rédaction.
Comment la COVID-19 a modifié notre feuille de route
La pandémie de coronavirus ne figurait certainement pas sur la feuille de route de mon équipe en 2020. Il est également important de rappeler que le New York Times n'est pas vraiment une entreprise spécialisée dans les données. Notre travail consiste à informer nos utilisateurs chaque jour via notre journal, nos applications et notre site Web. Notre salle de rédaction était loin d'imaginer qu'elle serait amenée à créer une énorme base de données liée au coronavirus qui alimenterait les informations publiées au quotidien.
Notre salle de rédaction évolue rapidement, et nos ingénieurs ont développé l'un des ensembles de données les plus complets sur la COVID-19 aux États-Unis. Avec Google, nous avons décidé de rendre nos données accessibles au public via l'ensemble de données public dédié à la COVID-19 de Google sur BigQuery. Consultez le webinaire suivant pour en savoir plus sur notre architecture d'évolution :
Une approche flexible
Plusieurs de nos équipes utilisent Google Cloud et ont pu choisir parmi les services disponibles pour répondre aux exigences de leurs projets.
Selon nous, la priorisation des services à développer est l'un des défis de la plate-forme de données. Notre capacité à collaborer avec les équipes produit de Google par le biais du Data Analytics Customer Council nous permet de visualiser la feuille de route de BigQuery, ou la feuille de route d'analyse des données. Cela joue un rôle important dans la prise de décision liée à la direction de notre développement. Par exemple, nous avons créé des outils comme notre API de reporting sur les données, qui lit les données directement depuis BigQuery afin de profiter de solutions telles que BigQuery BI Engine. Cette approche permet aux analystes de mieux gérer leurs domaines autour des dimensions et des métriques. Ils n'ont pas à se soucier du développement des mécanismes de mise en cache de leurs données. Cette visibilité nous permet d'adapter le développement du New York Times à la nouvelle normalité et à l'avenir.
Si vous souhaitez en savoir plus sur les équipes en charge des données au New York Times, consultez nos offres d'emploi liées au secteur technologique. Vous y trouverez également de nombreux articles intéressants sur le blog consacré aux données du NYT.