Analyse de créations à grande échelle avec Google Cloud et le machine learning

Cet article s'adresse aux professionnels de la publicité qui souhaitent savoir comment automatiser des insights sur les créations en utilisant les fonctionnalités de machine learning (ML) et d'entreposage de données de Google Cloud. L'article examine comment tirer parti de la technologie cloud pour obtenir rapidement des insights sur vos créations, mesurer efficacement la qualité de ces créations, puis adapter vos efforts publicitaires en conséquence. Découvrez comment extraire et traiter les métadonnées visuelles des annonces (vos créations) à grande échelle afin de mieux comprendre les images et les vidéos qui trouvent un écho auprès de vos clients.

Cet article décrit un système qui permet :

  • l'utilisation des API de machine learning pour analyser les créations ;
  • l'implémentation d'un pipeline Pub/Sub pour activer le traitement à grande échelle ;
  • l'interrogation de données publicitaires et du contenu des images pour l'analyse.

Le système décrit ici peut vous aider à :

  • activer l'analyse personnalisée des données brutes par les data scientists internes et externes ;
  • afficher une vue macro des éléments de création et des statistiques pertinentes sur un réseau, un annonceur ou une campagne pour l'analyse interactive ;
  • fournir des analyses évolutives à l'aide de modèles de machine learning que vous pouvez partager avec les parties prenantes qui cherchent à optimiser leurs créations.

Cet article suppose que vous utilisez Google Marketing Platform pour votre publicité.

Présentation

Les annonceurs se concentrent de plus en plus sur le ciblage et l'attribution, même si 75 % de l'impact d'une création est lié à sa qualité. Indépendamment de cette statistique, la plupart des efforts d'analyse continuent de se focaliser sur le moment et le lieu de diffusion de la création, au lieu de se concentrer sur son contenu. Cette focalisation n'est pas due à un manque d'effort, mais plutôt à la difficulté d'analyser les créations.

Pour que vous puissiez commencer à obtenir des insights à partir de données, le processus nécessite que vous ajoutiez manuellement une balise aux créations individuelles. Par conséquent, vous ne pouvez analyser qu'un ensemble sélectionné de créations, ce qui est onéreux et fastidieux. En outre, le processus d'importation des éléments de création ne se prête pas à une classification cohérente incluant l'ID de création. Il est donc impossible d'examiner les métriques de performances et de les relier à la création.

Dans l'idéal, vous voulez pouvoir répondre aux questions suivantes :

  • L'affichage du logo de la marque dans les 5 premières secondes d'une vidéo augmente-t-il la notoriété de la marque ?
  • Les créations contenant des images de nature ou de lieux en plein air, comme des arbres ou des plages, sont-elles plus performantes que les créations contenant des images de villes ?
  • Quels mots clés apparaissent dans vos créations et quel impact ont-ils sur les métriques ?
  • Les créations montrant plusieurs visages heureux suscitent-elles un engagement plus fort ?

Aujourd'hui, la seule façon de répondre à ces questions est d'examiner chaque création et d'y apporter manuellement des réponses. Cette solution n'est ni évolutive ni rapide. La solution présentée ici repense ce processus de manière à permettre aux analystes de traiter toutes les créations en quelques jours. Cette solution augmente considérablement l'étendue et la profondeur des données disponibles qui, avec un ajout manuel de balises, auraient été impossibles à obtenir ou auraient coûté excessivement cher.

Cet article décrit comment automatiser les insights sur les créations à grande échelle à l'aide de technologies Google Cloud telles que Pub/Sub, App Engine, Cloud Vision, BigQuery et Data Studio.

Pipeline de données pour des insights sur les créations

Le pipeline de données fonctionne principalement sur App Engine, à l'aide de Pub/Sub en tant que service de file d'attente de messages pour traiter plusieurs créations à la fois. Ce pipeline lit et écrit également dans Datastore afin de coordonner des tâches parallèles sur différents nœuds de calcul App Engine pendant les phases du pipeline.

Dans le pipeline, les images et les vidéos des créations sont extraites de Google Marketing Platform et copiées dans Cloud Storage. Les images et les vidéos sont également traitées par les API Vision et Video Intelligence. Les données brutes provenant de ces services sont ensuite écrites dans BigQuery. Pour vous aider à comprendre comment implémenter un tel pipeline, la section suivante examine plus en détail chaque composant.

Automatiser une solution

La solution proposée comporte trois étapes :

  1. Profitez des fonctionnalités de machine learning existantes grâce aux API Vision et Video Intelligence.
  2. Utilisez Pub/Sub pour créer un pipeline évolutif permettant de traiter les créations dont vous disposez.
  3. Stockez, interrogez et visualisez les insights obtenus à l'aide de BigQuery et Data Studio.

Étape 1 : Tirer parti des API de machine learning

Prenons l'exemple de création suivant :

annonce pour un baume pour la peau

Dans Campaign Manager, vous obtenez les informations liées à l'annonce suivantes :

  • ID de la création
  • Taille de la création
  • Métriques publicitaires telles que le taux de clics (CTR). Vous trouverez la liste complète de métriques dans Campaign Manager.
ID de la création Nom de la création Taille de la création Impressions Clics Taux de clics
12345 cbalm_lipgloss_300x300.png 300x300 80 734 829 174 696 0,2 %

Actuellement, les conventions d'attribution de noms sont votre meilleure option pour extraire des informations sur le contenu de la création elle-même. En revanche, cet article utilise l'API Cloud Vision pour extraire automatiquement les principales caractéristiques de cette création, comme illustré dans la figure suivante :

Extraction des caractéristiques clés d'une création à l'aide de l'API Vision

Pour comprendre les nuances du contenu, vous pouvez essayer de les extraire par vous-même en important l'image que vous avez créée.

Une fois que vous avez utilisé une API qui analyse en un rien de temps le contenu de la création, vous pouvez commencer à comprendre comment la qualité de celle-ci influence la notoriété et les performances des annonces. Il devient alors beaucoup plus facile pour vous de poser des questions sur l'ensemble de données.

Étape 2 : Configurer Pub/Sub pour automatiser le pipeline de création

Pour automatiser le pipeline de création à grande échelle, vous pouvez utiliser Pub/Sub. Ce service est une solution d'analyse de flux qui ingère des flux d'événements et les transmet à BigQuery à des fins d'analyse dans son entrepôt de données. Recourir à Pub/Sub pour transmettre des données d'événement vous permet de traiter efficacement des milliers de créations. Le diagramme suivant montre un aperçu de la configuration du pipeline utilisée pour mettre en œuvre l'analyse de créations.

Pile technologique et architecture

Pile technologique et architecture

Le diagramme de l'architecture ci-dessus fait référence aux composants Google Cloud suivants.

Composant GCP Rôle du pipeline
Pub/Sub File d'attente des messages et tâches asynchrones

Dans cette instance, nous vous suggérons de créer 4 sujets pour gérer les créations, les tâches, les métadonnées de création et les données de l'API Vision. Chacun de ces sujets est associé à des abonnements qui sont lancés lorsqu'une nouvelle entrée s'affiche.
Cloud Storage Idéal pour le stockage de fichiers multimédias contenant des images et des vidéos utilisées dans le pipeline.
App Engine Ressources de calcul pour traiter la logique métier
Datastore Permet une télémétrie de base sur les tâches, la coordination des actions entre les étapes du pipeline et l'agrégation de messages.
Cloud Logging Ressources Logging pour la vérification de l'état, le débogage et l'état
BigQuery Datastore pour les résultats du pipeline alimentant Data Studio à des fins d'analyse.

Points clés à retenir concernant le pipeline

  • Le début et la fin du pipeline sont des unités de travail monolithiques. Le milieu du pipeline traite les créations en parallèle, chaque message Pub/Sub diffusant une seule création.
  • Les tâches sont traitées comme de longs processus (pouvant prendre plusieurs heures, voire plusieurs jours par tâche).
  • Le pipeline est exécuté ad hoc. Par conséquent, les nouvelles données de Google Marketing Platform ne sont pas mises à jour avant la prochaine exécution.
  • Le pipeline nécessite des autorisations appropriées pour le compte de service associé au projet Google Cloud exécutant cette infrastructure, à la fois à partir des propriétés de Google Marketing Platform (par exemple, Campaign Manager) et des projets Google Cloud sources et de destination pour des services tels que Cloud Storage et BigQuery.
  • Ce pipeline permet de traiter une seule création ou d'effectuer des mises à jour par lot.

Étape 3 : Visualiser les insights sur les créations à l'aide de Data Studio et BigQuery

Pour une analyse préliminaire, vous pouvez d’abord utiliser les données brutes directement à partir des API Vision et Video Intelligence. Toutefois, pour la modélisation mathématique et le machine learning, nous vous recommandons d'extraire les caractéristiques de ces données dans un format adapté. Cette solution utilise un encodage one-hot modifié, exprimant chaque caractéristique de la création en tant que nombre de 0 à 1. Le tableau suivant montre quelques exemples de conversion de ces données.

Données API pour chaque création Représentation one-hot
Ensemble d'étiquettes en texte brut décrivant le contenu affiché dans la création (par exemple, plage ou voiture), ainsi qu'un score de confiance (de 0 à 1) pour chaque étiquette L'ensemble des caractéristiques correspond au dictionnaire complet des étiquettes de toutes les créations. Une création à laquelle un 0 est attribué signifie que son étiquette n'était pas présente, et une création obtenant le score de confiance (0 à 1) indique que son étiquette était présente.
Taille du logo en pixels

Emplacement du coin supérieur gauche en pixels
Une caractéristique de la taille relative du logo, calculée comme suit (largeur × hauteur du logo) / (largeur × hauteur de la création).

Quatre caractéristiques, une pour chaque quadrant, indiquant 1 si le logo était dans ce quadrant, et 0 si ce n'était pas le cas.
Liste de tous les visages présents dans la création Une caractéristique pour le nombre de visages, normalisée de 0 à 1, ayant une fonction logistique telle que 0 indique qu'il n'y a aucun visage, 0,5 qu'il y a 1 ou 2 visages et 0,99 qu'il y a de nombreux visages.

Une fois ces étapes terminées, vous pouvez utiliser BigQuery pour rassembler des informations sur une création à partir de l’API Vision (étiquette, score, couleur, visibilité), ainsi que des données de Google Marketing Platform, en particulier de Campaign Manager (ID de la création, taux de clics). Voici un exemple de table d'informations.

ID de la création Étiquette Score Couleur Proéminence Taux de clics
12345 pirate 0,7 rouge 0,8 0,2 %
chapeau 0,8 blanc 0,1
67890 torse 0,6 blanc 0,4 0,3 %
cheval 0,9 bleu ciel 0,4
  • Vous pouvez maintenant transformer ces données en insights et répondre facilement aux questions posées au début de cet article.

Commencez par poser la question suivante : les créations contenant des images de nature ou de lieux en plein air, comme des arbres ou des plages, sont-elles plus performantes que les créations contenant des images de villes ? À l'aide de données anonymisées provenant d'un constructeur automobile, le graphique suivant représente le nombre d'occurrences d'une étiquette par rapport à l'indice de performance de la création.

graphique qui représente le nombre d'occurrences d'une étiquette par rapport à l'indice de performance de la création

  • Dans le quadrant supérieur droit du graphique, les étiquettes engineering (conception), blueprint (plan) et schematic (schéma) s'affichent fréquemment et donnent de bons résultats. Les résultats suggèrent que la présentation de diagrammes et de plans de conception indique au client que la voiture est un produit conçu avec soin et précision.
  • Dans le quadrant inférieur droit, les étiquettes executive (cadre dirigeant) et dress shoes (chaussures de ville) s'affichent fréquemment, mais donnent des résultats médiocres. Vous pouvez choisir d'éviter ces types de créations à l'avenir.
  • Dans le quadrant supérieur gauche, les étiquettes journey (voyage), forest (forêt), people (personnes), body (corps) et sunglasses (lunettes de soleil) n'apparaissent pas fréquemment, mais elles surpassent les étiquettes en concurrence. Ces étiquettes montrent des opportunités que vous avez peut-être sous-estimées. Par exemple, voyage + forêt peut évoquer des publicités avec une route sinueuse et des paysages à couper le souffle, tandis que personnes + corps + lunettes de soleil peut suggérer que le modèle humain est important. Comparez ces étiquettes avec les étiquettes chaussures de ville + cadre dirigeant, et vous verrez qu'une image décontractée convient mieux à la campagne publicitaire de cette marque.

  • Maintenant, posez-vous une autre question : quels mots clés apparaissent dans vos créations et quel impact ont-ils sur les métriques ? En utilisant ces mêmes données à partir de BigQuery, vous pouvez créer le graphique suivant, qui associe le nombre d'occurrences de certains mots clés aux performances des créations correspondantes. Comme le montre le graphique suivant, les créations avec les mots clés now (maintenant) et sale (vente) ont tendance à obtenir de meilleurs résultats que les créations avec exclusive (exclusif) ou off (unique).

    les créations avec les mots clés

    Grâce à ces insights, vous pouvez mieux comprendre l'impact de toutes vos créations et prendre de meilleures décisions concernant le déploiement et les tests de créations.

Étapes suivantes