Les entreprises technologiques et les start-up découvrent les clés du succès :
- Les données doivent être unifiées dans l'ensemble de l'entreprise, et même avec les fournisseurs et partenaires. Cela implique de libérer les données non structurées, et de décloisonner l'organisation et la technologie.
- La pile technologique doit être suffisamment flexible pour soutenir les différents cas d'utilisation, de l'analyse de données hors connexion au machine learning en temps réel.
- La pile doit également être accessible partout et à tout moment. Elle doit être compatible avec plusieurs plates-formes, langages de programmation, outils et normes ouvertes.
Tout le monde sait que les données sont importantes, mais très peu d'entreprises sont en mesure d'extraire des insights clients et commerciaux innovants de leurs données. Que signifie tirer pleinement parti de vos données ? Pourquoi est-ce un véritable défi ?
Tirer pleinement parti de vos données signifie que vous êtes à même de prendre des décisions concernant vos produits et vos opérations à partir de ces données. Posez-vous donc quelques questions. Savez-vous comment les attentes de vos clients évoluent ? Utilisez-vous les données pour améliorer l'expérience client ? Quant au défi à relever, à quoi vos ingénieurs de données et vos data scientists consacrent-ils aujourd'hui leur temps ?
Les données sont essentielles pour innover en matière d'orientation produit, d'expériences utilisateur et même de décisions générales de commercialisation. L'exploitation efficace de vos données peut vous apporter un avantage concurrentiel décisif. C'est pourquoi la plupart des entreprises technologiques et des start-up sont soumises à une pression considérable pour en faire toujours plus : se moderniser et travailler à plus grande échelle, justifier les coûts actuels et futurs liés à leurs données, et renforcer leur maturité organisationnelle et leur processus décisionnel.
Toutefois, certains aspects comme les accès, le stockage, l'incohérence des outils, la conformité et la sécurité constituent un véritable défi. Il devient dès lors difficile d'explorer les données en profondeur et de dégager leur véritable valeur.
Vous essayez peut-être d'associer d'anciens systèmes hérités à de nouvelles technologies. Est-il pertinent de stocker toutes vos données dans le même cloud ? Ne vaudrait-il pas mieux les répartir sur plusieurs clouds ? Comment moderniser vos piles d'analyse de données (précédemment intégrées verticalement) pour les associer à des plates-formes à évolutivité horizontale ?
Peut-être encore procédez-vous aujourd'hui au traitement ou microtraitement par lot de vos données au lieu de les traiter en temps réel. Le système d'orchestration et la planification qui en résultent ajoutent à la complexité de votre architecture, et nécessitent de la maintenance pour la gestion des conflits et la résilience. Les frais d'exploitation liés à la gestion et à la maintenance de l'architecture par lot sont élevés, sans compter les compromis imposés sur la latence des données.
La difficulté d'accès à l'ensemble de vos données, et l'impossibilité de les traiter et de les analyser au fur et à mesure de leur arrivée nuisent à votre compétitivité. La pile technologique moderne doit être une pile de flux qui s'adapte à l'échelle de vos données, s'appuie sur les données disponibles les plus récentes, et intègre et comprend les données non structurées. Les équipes d'analyse les plus avancées sont passées de l'exploitation à l'action à l'aide de l'IA et du ML pour expérimenter et opérationnaliser les processus.
Que signifie "exploiter vos données" ? Il s'agit d'améliorer l'expérience client, de toucher de nouveaux clients et d'accroître les revenus. Cela repose avant tout sur votre capacité à innover. Voici deux principes que nous recommandons au moment de choisir une plate-forme de données qui vous aidera à obtenir ces résultats.
Principe 1 : Simplicité et évolutivité
Vous disposez probablement aujourd'hui d'une grande quantité de données. Peut-être que leur volume augmente de façon exponentielle, et que vous souhaitez maintenir ou accroître votre ROI tout en vous adaptant à ce volume. Peut-être que vous anticipez la quantité de données dont vous disposerez à l'avenir (par exemple, un téraoctet) et concevez vos systèmes de façon à traiter cette quantité, tout en sachant que si la croissance dépasse vos prévisions, vous envisagerez une migration du système à grande échelle. Ou peut-être que vous avez choisi un entrepôt de données capable de s'adapter à la croissance attendue, mais que l'augmentation des besoins en traitement rend sa gestion difficile.
Les systèmes de petite taille ont toujours été globalement plus simples. Cependant, vous n'avez plus à choisir entre un système facile à utiliser et un système hautement évolutif. Le recours à une architecture sans serveur élimine la nécessité de gérer vos clusters, et vous permet d'assurer des opérations de calcul et de stockage à grande échelle. Vous n'avez donc plus à craindre que la quantité de vos données dépasse votre capacité technique.
Pour plus de simplicité et d'évolutivité, nous vous recommandons une plate-forme de données sans serveur. Nous vous conseillons d'ignorer les solutions qui impliquent d'installer des logiciels, de gérer des clusters ou d'ajuster les requêtes.
Principe 2 : Agilité et réduction des coûts
Tout système de gestion des données qui associe calcul et stockage vous obligera à augmenter votre capacité de calcul pour faire face à la hausse du volume de données, même si vous n'en avez pas besoin. Cela peut s'avérer coûteux, et vous risquez de devoir faire des compromis, par exemple ne stocker que les données des douze derniers mois dans votre entrepôt de données analytiques. Vous pourriez également décider de ne pas inclure certaines données qui ne répondent pas à l'un de vos cas d'utilisation dans l'immédiat, pour le regretter à l'avenir en vous trouvant dans l'impossibilité de tester une hypothèse du fait de l'absence des données requises, qui vous obligerait à relancer un nouveau pipeline.
D'autres systèmes font la moitié du travail : vous pouvez effectuer un scaling et payer indépendamment pour le calcul et le stockage, mais vous devez quand même configurer, adapter et optimiser manuellement les clusters. BigQueryBigQuery).
Au-delà du coût et de la gestion, vous devez également réfléchir à l'agilité. Lorsque vos données changent, combien de temps vous faut-il pour vous en rendre compte et réagir ? Lorsqu'une nouvelle version d'un logiciel ou d'un outil que vous utilisez est disponible, combien de temps vous faut-il pour maîtriser les nouvelles fonctionnalités ? Pour gagner en agilité, vous devez choisir des outils flexibles qui nécessitent moins de manipulations et s'appliquent à une grande variété de charges de travail.
Les requêtes sur des systèmes tels que Redshift doivent être optimisées pour être efficaces. Cela limite la quantité de tests que vous pouvez réaliser, et vous n'allez donc peut-être extraire et importer des données que lorsque vous suspectez un problème. Les compromis à faire en raison de l'absence de séparation entre calcul et stockage, et la nécessité d'optimiser votre entrepôt de données vous imposent des contraintes majeures.
Avec BigQuery, vous n'avez pas besoin de planifier les requêtes à l'avance ni d'indexer vos ensembles de données. La dissociation du stockage et du calcul vous permet d'ajouter vos données sans craindre une augmentation des coûts des requêtes. De plus, vos data scientists peuvent effectuer des tests sans avoir à se soucier des clusters ni à redimensionner leurs entrepôts de données pour tester de nouvelles idées via des requêtes ad hoc.
Nous savons désormais comment une plate-forme simple, évolutive, flexible et économique vous permet d'innover. Nous allons maintenant voir comment vos données peuvent vous y aider.
Le rythme des activités commerciales ne cesse de s'accélérer. Les attentes des clients ont également changé. Alors qu'auparavant, vous pouviez rapprocher une transaction ou approuver un retour en trois jours, vous devez maintenant fournir des réponses immédiatement. La dynamisation des processus décisionnels entraîne un besoin accru en flux de données.
Vous devez pouvoir capturer les données en temps réel et les rendre disponibles pour les requêtes à faible latence de vos équipes commerciales. Vous devez également vous assurer que vos pipelines de flux de données sont évolutifs et résilients, et présentent des coûts de gestion faibles. C'est le seul moyen pour votre équipe de pouvoir réagir en temps réel au rythme de votre activité. Vous ne serez pas surpris d'apprendre que BigQuery offre une compatibilité native avec l'ingestion de données par flux, et que ces données sont immédiatement disponibles pour analyse via SQL. En plus de l'API de traitement par flux facile à utiliser de BigQuery, Dataflow vous permet de gérer vos pics de charges de travail standards et saisonniers sans dépasser le budget.
De nombreuses entreprises finissent par créer des silos, car elles stockent les données des différents services et unités commerciales séparément, chaque équipe possédant ses propres données. Autrement dit, chaque fois que vous voulez effectuer une analyse couvrant plusieurs services, vous devez trouver comment éliminer ces silos. Vous optez probablement pour l'exécution de pipelines d'extraction (ETL) afin de récupérer les données et de les ajouter dans votre entrepôt de données. Cependant, les services qui possèdent les données sont souvent peu enclins à gérer les pipelines. Ceux-ci se dégradent au fil du temps, et les données ajoutées deviennent obsolètes et perdent leur utilité.
Au-delà des silos organisationnels, de nombreuses entreprises ont aujourd'hui adopté une stratégie multicloud basée sur les préférences des services, l'alignement des capacités et la pression réglementaire. Ces entreprises ont souvent à faire face à la réalité des lacs de données hérités et des investissements dans les entrepôts de données qui résident sur site. Aujourd'hui, le cloud hybride et le multicloud exigent un niveau de sophistication supplémentaire pour gérer les données cloisonnées et y accéder.
Le passage à un entrepôt distribué doté d'un volet de contrôle commun (parfois appelé "data fabric" ou maillage de données) vous permet d'accéder à des données de haute qualité dans tous vos services, clouds et systèmes sur site. Cela peut résoudre des problématiques métier autour des performances des produits ou du comportement des clients, par exemple, et vous permet d'interroger les données à la volée.
BigQuery fournit les fondements technologiques d'un tel maillage de données. Les utilisateurs de votre entreprise peuvent gérer, sécuriser et partager des éléments de données et des insights qui leur sont accessibles, indépendamment du propriétaire des données. Par exemple, vous pouvez ajouter toutes vos données dans BigQuery, et fournir des fonctions réutilisables, des vues matérialisées et même la possibilité d'entraîner des modèles de ML sans aucun transfert des données. Ainsi, même les experts de domaines non techniques (tout comme les partenaires et les fournisseurs autorisés) peuvent facilement accéder aux données et utiliser SQL pour les interroger à l'aide d'outils familiers comme les feuilles de calcul et les tableaux de bord.
L'analogie "Hub and Spoke" est appropriée ici. BigQuery est le hub qui contient vos données. Les spokes sont les outils de création de rapports, les tableaux de bord, les modèles de ML, les applications Web, les systèmes de recommandation, etc. qui lisent tous les données en direct depuis BigQuery sans avoir à les copier. Looker, par exemple, vous aide à visualiser vos données et à les intégrer aux workflows quotidiens des utilisateurs. Cette approche vous permet d'améliorer à la fois la facilité d'utilisation, la sécurité et la qualité de vos données.
Historiquement, les données non structurées et semi-structurées convenaient mieux aux lacs de données, tandis que les données structurées étaient plus adaptées aux entrepôts de données. Cette séparation créait des silos technologiques qui rendaient le recoupement des formats difficile. Toutes les données étaient stockées dans un lac de données pour des raisons de coût et de facilité de gestion, puis déplacées vers un entrepôt afin que vous puissiez recourir à des outils d'analyse pour extraire des insights.
Fort d'une popularité grandissante, le data lakehouse fusionne les deux mondes dans un environnement unifié pour tous les types de données : BigQuery s'utilise aussi bien comme entrepôt de données que comme lac de données. L'API Storage de BigQuery vous permet d'accéder directement au stockage pour alimenter les charges de travail généralement associées aux lacs de données. Comme les données peuvent être stockées dans BigQuery en tant que source d'informations unique et fiable, moins de copies doivent être créées et gérées. Vous pouvez plutôt exécuter le traitement en aval via des transformations SQL stockées dans des vues logiques, sans avoir à déplacer des données.
La facilité d'utilisation est importante : si vous obtenez des résultats de requêtes en 30 secondes au lieu de 30 minutes ou 3 heures, vous vous servirez probablement davantage des données pour prendre vos décisions.
Combien de temps faut-il à vos data scientists pour réaliser des tests ? Il est probable qu'ils doivent interrompre le développement et opérationnaliser leurs modèles afin d'évaluer leurs tests auprès d'utilisateurs réels. Ils développent et perfectionnent un modèle à l'aide des données de l'historique avant de le remettre aux ingénieurs, qui le réécrivent souvent entièrement pour l'intégrer dans le système de production et effectuer des tests A/B. Puis ils attendent, effectuent d'autres itérations sur le modèle avant de l'intégrer à nouveau à la production. Ce cycle exige de nombreux allers-retours et réécritures du code, avec toute la coordination que cela implique entre les équipes et qui entraîne des erreurs en cours de route. Vos data scientists n'effectuent pas autant de tests qu'il le faudrait, car cette approche peut prendre beaucoup de temps. Il est donc difficile de prévoir la durée d'un projet et s'il va aboutir, et encore plus le temps nécessaire pour passer à une utilisation de routine. Pour éliminer ces difficultés, vous devez fournir à vos data scientists des outils puissants, mais familiers. Vertex AI Workbench permet aux data scientists de travailler efficacement dans les notebooks Jupyter. La formation est rapide, de même que les tests et le déploiement.
Si vous voulez véritablement vous démarquer en vous appuyant sur les données, vous devez extraire la plus forte valeur possible des données que vous collectez. Pour y parvenir, vos équipes de data science doivent être productives au maximum, et ne pas passer à côté d'opportunités de créer un modèle car les tâches les plus simples se révèlent trop longues ou trop complexes.
La qualité de vos modèles prédéfinis et nécessitant peu de codage est essentielle. AutoML sur Vertex AI fournit des modèles d'IA de pointe dans un environnement sans code, ce qui permet d'accélérer les opérations d'analyse comparative et de hiérarchisation. Le fait d'utiliser des modèles prédéfinis comme l'extraction d'entités ou Vertex AI Matching Engine sur vos propres données accélère considérablement la création de valeur à partir des données. Vous n'êtes plus limité à la classification ou à la régression.
La clé pour maintenir l'agilité de vos données consiste à effectuer des tests de bout en bout de façon anticipée et régulière. Vertex AI Pipelines fournit un historique des tests qui vous permet de remonter dans le temps, d'effectuer des comparaisons par rapport aux benchmarks et aux points de terminaison, et de réaliser des tests A/B avec des modèles dupliqués. Puisque le code est conteneurisé, vous pouvez utiliser le même code dans les systèmes de développement et de production. Les data scientists travaillent en Python, et les ingénieurs en production obtiennent des conteneurs entièrement encapsulés. Les deux équipes peuvent opérationnaliser les modèles à l'aide de Vertex AI Prediction de façon à standardiser les processus et avancer rapidement.
Les experts du domaine peuvent utiliser BigQuery ML régulièrement pour tester la faisabilité d'une idée en entraînant des modèles personnalisés uniquement en SQL. Aucune expérience supplémentaire des outils traditionnels de data science n'est nécessaire. Vous pouvez ainsi réaliser des tests dans un système de production et réaliser des études de faisabilité en quelques jours au lieu de plusieurs mois. Le modèle BigQuery ML peut être déployé dans Vertex AI pour bénéficier de tous les avantages que nous venons de présenter. Vous pouvez vous servir de Looker pour créer des modèles de données cohérents à partir de toutes vos données et utiliser LookML pour les interroger. LookML permet à tous les membres de l'entreprise de créer des rapports et des tableaux de bord faciles à lire pour explorer les tendances dans les données.
Pour générer une valeur réelle en production, les systèmes doivent pouvoir ingérer, traiter et livrer les données, et le machine learning doit alimenter des services personnalisés en temps réel en fonction du contexte du client. Cependant, une application de production qui s'exécute en permanence exige que les modèles soient constamment réentraînés, déployés et vérifiés pour des raisons de sécurité. Les données entrantes nécessitent des opérations de prétraitement et de validation pour s'assurer qu'elles ne présentent aucun problème de qualité, suivies de l'ingénierie des caractéristiques et de l'entraînement des modèles avec réglage des hyperparamètres.
La data science et le machine learning intégrés sont essentiels pour orchestrer et gérer facilement ces workflows de ML à plusieurs phases, et pour les exécuter de manière fiable et répétée. Les outils MLOps et les workflows automatisés permettent une livraison continue rapide et simplifient la gestion des modèles jusqu'à la production. Quelle que soit la couche d'abstraction, tous nos produits d'IA bénéficient d'un workflow et d'un vocabulaire uniques. Les modèles AutoML et personnalisés sont facilement interchangeables, car ils reposent sur le même format et les mêmes bases techniques.
Par exemple, que se passe-t-il si vous souhaitez appliquer la détection des anomalies à des flux de données illimités en temps réel pour lutter contre la fraude ? Avec la bonne approche, vous pouvez générer un échantillon de flux de données pour simuler le trafic réseau courant, l'ingérer dans Pub/Sub, puis créer et entraîner un modèle de détection d'anomalies dans BigQuery à l'aide du clustering en k-moyennes de BigQuery ML, après avoir masqué les informations permettant d'identifier personnellement l'utilisateur à l'aide de DLP. Vous appliquez ensuite le modèle aux données en direct à des fins de détection en temps réel à l'aide de Dataflow, puis utilisez Looker pour créer un tableau de bord, des alertes et des actions permettant de gérer les événements identifiés.
Nous avons parlé de BigQuery et de Redshift, mais ce ne sont pas les seules solutions d'entrepôt de données disponibles. D'autres produits d'analyse de données (comme Snowflake et Databricks) fonctionnent sur les trois principaux clouds. Si vous choisissez BigQuery, la dépendance à un cloud pose-t-elle problème ?
Tout d'abord, notez qu'avec BigQuery, vous n'êtes pas limité à l'analyse des seules données que vous avez stockées dans Google Cloud. BigQuery Omni vous permet d'interroger facilement vos données dans Amazon S3 et Azure Blob Storage depuis la console Google Cloud.
En réalité, si vous utilisez Snowflake ou Databricks, les coûts de transfert d'AWS vers Google Cloud ou inversement sont plus faibles. Mais combien coûte le passage à un autre entrepôt de données ? Que se passe-t-il si vous passez de Snowflake à BigQuery, ou de Databricks à EMR ? Les frais de transfert sont une constante, seul le scénario change.
Le transfert engendrant des coûts quoi qu'il arrive, vous avez donc intérêt à choisir l'outil ou la plate-forme qui fonctionnera pour vous sur le long terme. Faites votre choix en fonction des caractéristiques particulières d'une plate-forme donnée, de son coût actuel et de sa capacité à suivre le rythme des innovations à venir. En optant pour Snowflake, vous misez sur le fait qu'une entreprise axée sur l'entreposage de données saura innover plus rapidement dans ce domaine. En vous tournant vers BigQuery, vous comptez sur une entreprise qui a inventé de nombreuses technologies de données et d'IA pour continuer à innover sur sa plate-forme.
Nous pensons qu'une plate-forme innovante et bien intégrée est mieux armée pour mener la course à l'innovation. Par exemple, une offre de services gérés comme Google Kubernetes Engine (GKE) accélère le chargement des images de conteneurs, ce qui permet à Spark sans serveur de mieux fonctionner. Et puisque Spark sans serveur peut opérer sur les données dans BigQuery, BigQuery vous est ainsi plus utile. Le rythme de la course est plus élevé lorsque vous misez sur une plate-forme plutôt que sur des produits individuels.
Si vous migrez d'un cloud à un autre, ce sera probablement plus facile que de migrer d'un système sur site vers le cloud, simplement parce que votre intégration technologique est généralement plus avancée sur site. Concentrez-vous sur votre objectif, ce qui revient à vous demander : "À quelle vitesse puis-je innover ?"
Réfléchissez à toutes les tâches innovantes que vous souhaitez accomplir et qui vous sont impossibles aujourd'hui, puis configurez de nouveaux projets et transférez les données dont vous avez besoin pour les mener à bien. Nous pouvons vous aider à créer ces nouveaux cas d'utilisation et à mettre en miroir les sources de données dont vous aurez besoin. Pendant un certain temps, vous serez dans un environnement hybride dans lequel de nombreux cas d'utilisation s'exécutent sur site, mais basés sur des données mises en miroir en temps réel ou de manière groupée depuis votre environnement sur site ou un autre fournisseur cloud.
Le deuxième aspect à prendre en compte est le coût. Examinez les instances Teradata très coûteuses que vous exécutez. Nous constatons que les clients réduisent leurs coûts de moitié en passant à BigQuery, et ces migrations sont bien plus faciles à réaliser qu'auparavant grâce aux outils d'évaluation et transpileurs SQL automatisés qui permettent de convertir la grande majorité de vos scripts. Nous disposons de moyens de virtualisation afin que vos clients aient l'impression de communiquer avec Teradata lorsqu'ils s'adressent à BigQuery. Nous pouvons vous aider dans votre migration de nombreuses manières sans que vous deviez tout mettre à l'arrêt. Nous vous fournissons des outils de migration pour que vous puissiez vous épargner vos charges de travail Teradata et Hadoop coûteuses.
Le troisième point consiste à examiner vos systèmes ERP, comme SAP, les systèmes Salesforce et Oracle. Si vous voulez optimiser votre chaîne d'approvisionnement, attribuer des scores à vos prospects ou détecter des fraudes, il est important de pouvoir associer vos charges de travail d'analyse de données à vos systèmes ERP. Nous pouvons utiliser des connecteurs tiers pour obtenir des données à partir de ces systèmes, et nous servir ensuite de ces données pour créer dans le cloud des cas d'utilisation modernes basés sur l'IA.
L'ordre dans lequel vous procédez dépend de votre situation. Si vous êtes une start-up, vous pouvez commencer par vous concentrer sur l'innovation, passer à l'optimisation des coûts, puis utiliser des pipelines et des connecteurs existants. Si votre entreprise est fortement dépendante des chaînes d'approvisionnement, vous pouvez commencer par les connecteurs ERP. Quel que soit l'ordre que vous établissez pour ces trois étapes, vous constaterez que vous avez migré une portion considérable de votre infrastructure de données de valeur vers le cloud. Maintenant, examinez ce qui reste à migrer et demandez-vous si cela en vaut la peine. La réponse est souvent non : une fois que vous avez déplacé 70 à 80 % des charges de travail vraiment nécessaires, vous devez prendre des décisions difficiles. Est-il vraiment utile de migrer les 20 à 30 % restants ? Ne vaudrait-il pas mieux réécrire le tout ou procéder différemment ? Vous n'avez peut-être pas intérêt à migrer toutes les données vers le cloud en l'état. Vous risquez de répliquer toute la dette technologique que vous aviez sur site dans votre nouvel environnement cloud, au lieu de vous concentrer sur la valeur des données.
Nous avons beaucoup parlé de l'exploitation de vos données, de ce que cela signifie et des éléments à prendre en compte lors de la migration vers un entrepôt de données dans le cloud.
Pour découvrir comment Google Cloud peut aider votre entreprise à exploiter les insights à son avantage, à réduire les coûts et à améliorer sa productivité en optimisant l'utilisation des données et de l'IA, n'hésitez pas à nous contacter.
Autres ressources
Remplissez le formulaire, et nous vous contacterons. Afficher le formulaire