L'avenir des données sera unifié, flexible et accessible
Les entreprises technologiques et les start-up découvrent que pour réussir :
- Les données doivent être unifiées sur l'ensemble de l'entreprise, et même entre les fournisseurs et partenaires. Cela implique de libérer les données non structurées, et de décloisonner l'organisation et la technologie.
- La pile technologique doit être suffisamment flexible pour soutenir les cas d'utilisation, de l'analyse de données hors connexion au machine learning en temps réel.
- La pile doit également être accessible partout et à tout moment. Elle doit être compatible avec plusieurs plates-formes, langages de programmation, outils et normes ouvertes.
Pourquoi tirer pleinement parti de vos données peut vous procurer un avantage concurrentiel
Tout le monde sait que les données sont importantes, mais très peu d'entreprises sont en mesure d'extraire des insights clients et commerciaux innovants de leurs données. Que signifie tirer pleinement parti de vos données ? Pourquoi est-ce un défi ?
Tirer le meilleur parti de vos données signifie que vous êtes à même de prendre des décisions concernant vos produits et vos opérations à partir des données. Posez-vous donc quelques questions. Savez-vous comment les attentes de vos clients évoluent ? Utilisez-vous les données pour améliorer l'expérience client ? Quant au défi à relever, sur quoi vos ingénieurs de données et vos scientifiques passent-ils aujourd'hui leur temps ?
Les données sont essentielles pour piloter une orientation produit et des expériences utilisateur innovantes, de même que les décisions générales de commercialisation. L'exploitation efficace de vos données peut vous apporter un avantage concurrentiel décisif. C'est pourquoi la plupart des entreprises technologiques et des start-up sont soumises à une pression considérable pour en faire toujours plus : moderniser et travailler à plus grande échelle, justifier les coûts actuels et futurs liés à leurs données, renforcer leur maturité organisationnelle et leur processus décisionnel.
Toutefois, certains aspects comme les accès, le stockage, l'incohérence des outils, la conformité et la sécurité sont un véritable défi. Il devient dès lors difficile d'explorer les profondeurs et de dégager la valeur réelle de vos données.
Vous essayez peut-être d'associer d'anciens systèmes hérités à de nouvelles technologies. Est-il nécessaire de stocker toutes vos données dans le même cloud ? Ne vaudrait-il pas mieux les répartir entre plusieurs clouds ? Comment moderniser vos piles d'analyse de données (précédemment intégrées verticalement) pour fonctionner avec des plates-formes à évolutivité horizontale ?
Ou peut-être traitez-vous aujourd'hui vos données par lot ou micro-lot au lieu de procéder en temps réel. Le système d'orchestration et la planification qui en résultent ajoutent de la complexité à votre architecture, et nécessitent une maintenance pour la gestion des conflits et la résilience. Les coûts opérationnels liés à la gestion et à la maintenance de l'architecture par lot sont élevés, sans compter les compromis que vous devez faire sur la latence des données.
La difficulté d'accès à toutes vos données et l'impossibilité de les traiter et de les analyser au fur et à mesure de leur arrivée nuisent à votre compétitivité. La pile technologique moderne doit être une pile de flux qui s'adapte à l'échelle de vos données, utilise les données disponibles les plus récentes, et intègre et comprend les données non structurées. Les équipes d'analyse les plus avancées sont passées de l'exploitation à l'action en s'appuyant sur l'IA et le ML pour expérimenter et opérationnaliser les processus.
Comment exploiter vos données afin de vous concentrer sur l'innovation
Qu'est-ce que cela signifie pour vous ? Cela signifie améliorer l'expérience client, toucher de nouveaux clients et accroître les revenus. Premièrement, il faut être capable d'innover. Voici deux principes que nous recommandons pour choisir une plate-forme de données qui vous aidera à obtenir ces résultats.
Principe 1 : Simplicité et évolutivité
Vous disposez probablement d'une grande quantité de données en ce moment. Peut-être que cette quantité augmente de façon exponentielle, et vous souhaitez maintenir ou augmenter votre ROI tout en gérant le volume. Vous anticipez peut-être la quantité de données dont vous disposerez à l'avenir (par exemple, un téraoctet) et vous concevez vos systèmes de façon à traiter cette quantité, tout en sachant que si la croissance dépasse vos prévisions, vous envisagerez une migration du système à grande échelle. Ou peut-être avez-vous choisi un entrepôt de données capable de s'adapter à la croissance attendue, mais l'augmentation des besoins en traitement rend la gestion difficile.
Les systèmes de petite taille ont toujours été plus simples en général. Cependant, il n'est plus question de choisir entre un système facile à utiliser et un système hautement évolutif. L'utilisation d'une architecture sans serveur élimine la nécessité de gérer vos clusters et vous permet de gérer des opérations de calcul et de stockage à grande échelle. Vous n'avez donc plus à vous soucier de la quantité des données au-delà de votre capacité technique.
Pour plus de simplicité et d'évolutivité, nous vous recommandons d'opter pour une plate-forme de données sans serveur. Nous vous conseillons d'ignorer les solutions qui impliquent d'installer des logiciels, de gérer des clusters ou d'ajuster les requêtes.
Principe 2 : Agilité et réduction des coûts
Tout système de gestion des données qui associe le calcul et le stockage vous obligera à effectuer un scaling à la hausse pour faire face à une augmentation du volume de données, même si vous n'en avez pas besoin. Cela peut s'avérer coûteux, et vous risquez de vous retrouver à faire des compromis, par exemple ne stocker que les données des douze derniers mois dans votre entrepôt de données analytiques. Vous pouvez également choisir de ne pas inclure de données, car ce n'est pas un cas d'utilisation pour vous dans l'immédiat. Mais vous pourriez découvrir qu'il ne vous est pas possible de tester une hypothèse, car les données ne sont pas là, et qu'il vous faut un nouveau pipeline pour commencer.
D'autres systèmes se présenteront à mi-parcours, grâce auxquels vous pourrez effectuer un scaling et payer indépendamment pour le calcul et le stockage, mais vous devrez quand même configurer, adapter et optimiser manuellement des clusters. Pour minimiser la gestion de l'infrastructure autant que possible, envisagez un entrepôt de données multicloud sans serveur qui offre des performances et une fiabilité améliorées, ainsi qu'une protection intégrée des données (comme BigQuery).
Au-delà du coût et de la gestion, vous devez également réfléchir à l'agilité. Lorsque vos données changent, combien de temps vous faut-il pour vous en rendre compte et réagir ? Lors d'une nouvelle version d'un logiciel ou d'un outil que vous utilisez, combien de temps vous faut-il pour maîtriser les nouvelles fonctionnalités ? Pour augmenter votre agilité, il convient de choisir des outils flexibles qui nécessitent moins de manipulations et qui s'appliquent à une grande variété de charges de travail.
Les requêtes sur des systèmes tels que Redshift doivent être optimisées pour être efficaces. Cela limite la quantité de tests que vous pouvez réaliser, de sorte que vous ne pouvez extraire et importer des données que lorsque vous suspectez un problème. Les compromis que vous faites en raison de l'absence de séparation entre calcul et stockage et la nécessité d'optimiser votre entrepôt de données vous attache une main dans le dos.
Avec BigQuery, vous n'avez pas besoin de planifier des requêtes à l'avance ni d'indexer vos ensembles de données. Le stockage et le calcul dissociés vous permettent de transférer des données sans craindre une augmentation des coûts de requêtes. De plus, vos data scientists peuvent effectuer des tests sans avoir à se soucier des clusters ni à redimensionner leurs entrepôts de données pour tester de nouvelles idées via des requêtes ad hoc.
Nous avons vu comment une plate-forme simple, évolutive, flexible et économique vous permet d'innover. Nous allons maintenant voir comment vos données peuvent vous y aider.
Prenez des décisions basées sur les données en temps réel
Le rythme des activités ne cesse de s'accélérer. Les attentes des clients ont également changé. Alors qu'auparavant, vous pouviez rapprocher une transaction ou approuver un retour en trois jours, vous devez maintenant fournir des réponses immédiatement. L'accélération des processus décisionnels entraîne un besoin accru en flux de données.
Vous devez pouvoir capturer les données en temps réel et les rendre disponibles pour les requêtes à faible latence de vos équipes commerciales. Vous devez également vous assurer que vos pipelines de flux de données sont évolutifs, résilients et présentent des coûts de gestion faibles. C'est le seul moyen pour votre équipe de pouvoir réagir en temps réel au rythme de votre activité. Vous ne serez pas surpris d'apprendre que BigQuery offre une compatibilité native avec l'ingestion de données par flux, et que ces données sont immédiatement disponibles pour analyse via SQL. Outre l'API d'insertion en flux continu facile à utiliser de BigQuery, Dataflow vous permet de gérer vos charges de travail des périodes saisonnières et des pics d'activité sans dépasser le budget.
Décloisonnez les données
De nombreuses entreprises finissent par créer des silos, car elles stockent des données séparément entre les services et les unités commerciales, chaque équipe possédant ses propres données. Autrement dit, chaque fois qu'il s'agit d'effectuer une analyse couvrant plusieurs services, il faut trouver comment décloisonner ces silos, probablement en exécutant des pipelines d'extraction (ETL), afin de récupérer les données et les envoyer dans l'entrepôt de données. Cependant, les services qui possèdent les données sont souvent peu enclins à gérer les pipelines. Ceux-ci se dégradent avec le temps et les données qui arrivent deviennent obsolètes et perdent leur utilité.
Au-delà des silos organisationnels, de nombreuses entreprises ont aujourd'hui adopté une stratégie multicloud basée sur les préférences des services, l'alignement des capacités et la pression réglementaire. Ces entreprises ont souvent à faire face à la réalité des lacs de données hérités et des investissements dans les entrepôts de données qui résident sur site. Aujourd'hui, la réalité du cloud hybride et du multicloud exige un niveau de sophistication supplémentaire dans la gestion et l'accès aux données cloisonnées.
Le passage à un entrepôt distribué doté d'un volet de contrôle commun (parfois appelé "data fabric" ou maillage de données) vous permet d'accéder à des données de haute qualité dans tous vos services, clouds et systèmes sur site. Cela peut résoudre les problématiques métier telles que les performances d'un produit ou le comportement des clients, et vous permet d'interroger des données à la volée.
BigQuery fournit les fondements technologiques d'un tel maillage de données. Les utilisateurs de votre organisation peuvent gérer, sécuriser et partager des éléments de données et des insights qui leur sont accessibles, indépendamment du propriétaire des données. Par exemple, vous pouvez envoyer toutes vos données dans BigQuery et fournir des fonctions réutilisables, des vues matérialisées et même la possibilité d'entraîner des modèles de ML sans aucun mouvement de données. Ainsi, même les experts de domaines non techniques (ainsi que les partenaires et les fournisseurs autorisés) peuvent facilement accéder aux données et utiliser SQL pour les interroger à l'aide d'outils familiers comme les feuilles de calcul et les tableaux de bord.
L'analogie "Hub and Spoke" est appropriée ici. BigQuery est le hub qui contient vos données. Les spokes sont des outils de reporting, des tableaux de bord, des modèles de ML, des applications Web, des systèmes de recommandation, etc. qui tous lisent les données en direct depuis BigQuery sans avoir à les copier. Looker, par exemple, vous aide à visualiser vos données et à les intégrer aux workflows quotidiens des utilisateurs. Cette approche vous permet d'améliorer simultanément la facilité d'utilisation, la sécurité et la qualité de vos données.
Simplifiez l'accès à toutes vos données
Historiquement, les données non structurées et semi-structurées étaient idéales pour les lacs de données, tandis que les données structurées convenaient mieux aux entrepôts de données. Cette séparation créait des silos technologiques qui rendaient le croisement de fragments formatés difficile ; toutes les données étaient stockées dans un lac de données pour des raisons de coût et de facilité de gestion, puis déplacées vers un entrepôt afin de pouvoir utiliser des outils d'analyse pour extraire des insights
Cette "maison du lac" de plus en plus populaire fusionne les deux mondes dans un environnement unifié pour tous les types de données : BigQuery s'utilise aussi bien comme entrepôt de données que comme lac de données. L'API Storage de BigQuery vous permet d'accéder directement au stockage pour alimenter les charges de travail généralement associées aux lacs de données. Comme les données peuvent être stockées dans BigQuery en tant que source d'informations unique, moins de copies doivent être créées et gérées. Vous pouvez exécuter le traitement en aval via des transformations SQL stockées dans des vues logiques, sans avoir à déplacer des données.
La facilité d'utilisation est importante : si vous obtenez des résultats en 30 secondes au lieu de 30 minutes ou 3 heures, vous vous servirez probablement davantage des données dans votre prise de décision.
Utilisez l'IA et le ML pour accélérer les tests et opérationnaliser les charges de travail
Combien de temps faut-il à vos data scientists pour réaliser des tests ? Il est probable qu'ils doivent arrêter le développement et opérationnaliser leurs modèles afin d'évaluer leurs tests auprès d'utilisateurs réels. Ils développent et perfectionnent un modèle à l'aide des données de l'historique avant de le remettre aux ingénieurs, qui le réécrivent souvent entièrement pour l'intégrer dans le système de production et effectuer des tests A/B. Puis ils attendent, effectuent de nouvelles itérations sur le modèle avant de l'intégrer à nouveau à la production. Ce cycle implique de nombreuses étapes d'arrêt et de réécriture du code, avec toute la coordination nécessaire entre les équipes qui introduisent des erreurs en chemin. Vos data scientists n'effectuent pas de tests aussi souvent qu'il le faudrait, car cette manière de procéder peut prendre beaucoup de temps. Il est donc difficile de prévoir combien de temps un projet va durer et s'il va aboutir, sans compter le temps nécessaire pour passer à une utilisation de routine. Pour aller plus loin, vous devez fournir à vos data scientists des outils puissants, mais familiers. Vertex AI Workbench permet aux data scientists de travailler efficacement dans les notebooks Jupyter. La formation est rapide, de même que les délais d'expérimentation et de déploiement.
Si vous voulez marquer votre différence en vous appuyant sur les données, vous devez extraire la plus forte valeur des données que vous collectez. Pour y parvenir, vos équipes de science des données doivent être aussi productives que possible et ne pas passer à côté d'opportunités de créer un modèle parce que c'est trop long ou trop difficile, même pour des tâches simples.
La qualité de vos modèles prédéfinis et nécessitant peu de programmation est essentielle. AutoML sur Vertex AI fournit des modèles d'IA de pointe dans un environnement sans code, ce qui permet d'accélérer les opérations d'analyse comparative et de hiérarchisation. Le fait d'utiliser des modèles prédéfinis comme l'extraction d'entités ou Vertex AI Matching Engine sur vos propres données accélère considérablement la création de valeur à partir des données ; vous n'êtes plus limité à la classification ou à la régression.
La clé pour maintenir l'agilité de vos données consiste à effectuer des tests de bout en bout de façon anticipée et régulière. Vertex AI Pipelines fournit un historique des tests qui vous permet de remonter dans le temps, d'effectuer des comparaisons par rapport aux benchmarks et aux points de terminaison, et de réaliser des tests A/B avec des modèles parallèles. Comme le code est conteneurisé, vous pouvez utiliser le même code entre les systèmes de développement et de production. Les data scientists travaillent en Python, et les ingénieurs en production obtiennent des conteneurs entièrement encapsulés. Les deux équipes peuvent opérationnaliser les modèles à l'aide de Vertex AI Prediction de façon à standardiser les processus et passer rapidement à l'action.
Les experts du domaine peuvent utiliser BigQuery ML régulièrement pour tester la faisabilité d'une idée en entraînant des modèles personnalisés uniquement en SQL. Aucune expérience supplémentaire des outils traditionnels de science des données n'est nécessaire. Vous pouvez ainsi tester un système de production et réaliser des études de faisabilité en quelques jours au lieu de plusieurs mois. Le modèle BigQuery ML peut être déployé dans Vertex AI pour bénéficier de tous les avantages que nous venons de présenter. Vous pouvez vous servir de Looker pour créer des modèles de données cohérents au-dessus de toutes vos données et utiliser LookML pour les interroger. Looker permet à tous les membres de l'entreprise de créer des rapports et des tableaux de bord faciles à lire pour explorer les modèles de données.
Pour générer une valeur réelle en production, les systèmes doivent pouvoir ingérer, traiter et diffuser des données, et le machine learning doit générer des services personnalisés en temps réel en fonction du contexte du client. Cependant, une application de production qui s'exécute en permanence exige que les modèles soient constamment entraînés, déployés et vérifiés pour garantir la sécurité. Les données entrantes nécessitent des opérations de prétraitement et de validation pour s'assurer qu'elles ne présentent aucun problème de qualité, suivies de l'extraction de caractéristiques et de l'entraînement du modèle avec réglage des hyperparamètres.
La science des données et le machine learning intégrés sont essentiels pour orchestrer et gérer facilement ces workflows de ML en plusieurs phases, et pour les exécuter de manière fiable et répétée. Les outils MLOps et les workflows automatisés permettent une livraison continue rapide et simplifient la gestion des modèles en production. Quel que soit le niveau d'abstraction, tous nos produits d'IA bénéficient d'un workflow et d'un vocabulaire unique. Vous pouvez aussi échanger facilement des modèles AutoML et personnalisés, car ils reposent sur le même format et les mêmes bases techniques.
Par exemple, que se passe-t-il si vous souhaitez appliquer la détection d'anomalies à des flux de données en temps réel illimités pour lutter contre la fraude ? Avec la bonne approche, vous pouvez générer un échantillon de flux de données pour simuler le trafic réseau courant, l'ingérer dans Pub/Sub, puis créer et entraîner un modèle de détection d'anomalies dans BigQuery à l'aide du clustering en k-moyennes de BigQuery ML, après avoir masqué les informations personnelles à l'aide de la protection contre la perte de données. Vous appliquez ensuite le modèle à des données actives de détection en temps réel à l'aide de Dataflow, puis utilisez Looker pour créer un tableau de bord, des alertes et des actions permettant de gérer les événements identifiés.
Pourquoi il est important de choisir une solution d'entrepôt de données bien conçue
Nous avons parlé de BigQuery et de Redis, mais ce ne sont pas les seules options d'entrepôt de données disponibles. D'autres produits d'analyse de données (tels que Snowflake et Databricks) fonctionnent sur les trois principaux clouds. Si vous choisissez BigQuery, la dépendance au cloud pose-t-il problème ?
Tout d'abord, notez qu'avec BigQuery, vous n'êtes pas limité à l'analyse des données que vous avez stockées dans Google Cloud. BigQuery Omni vous permet d'interroger facilement vos données dans Amazon S3 et Azure Blob Storage depuis Google Cloud Console.
En réalité, si vous utilisez Snowflake ou Databricks, les coûts de transfert d'AWS vers Google Cloud ou inversement sont plus faibles. Mais combien coûte le passage à un autre entrepôt de données ? Que se passe-t-il si vous passez de Snowflake à BigQuery, ou de Databricks à EMR ? Il existe toujours des frais de transfert ; c'est juste un autre scénario.
Quel que soit le scénario, des frais de transferts vous seront facturés. Vous avez donc intérêt à choisir l'outil ou la plate-forme qui fonctionnera pour vous sur le long terme. Vous faites votre choix en fonction des caractéristiques particulières d'une plate-forme donnée, du coût actuel et de sa capacité à suivre le rythme de l'innovation à l'avenir. En choisissant Snowflake, vous misez sur le fait qu'une entreprise axée sur l'entreposage de données vous permettra d'innover plus rapidement dans ce domaine. En choisissant BigQuery, vous comptez sur une entreprise qui a inventé de nombreuses technologies de données et d'IA pour continuer à innover sur la plate-forme.
Nous pensons qu'une plate-forme innovante et bien intégrée est mieux armée pour actionner le mouvement perpétuel de l'innovation. Par exemple, une offre de services gérés comme Google Kubernetes Engine (GKE) accélère le chargement des images de conteneurs. Cela permet à Spark sans serveur de mieux fonctionner et d'opérer sur les données dans BigQuery. Donc, dans ce cas, BigQuery vous est plus utile. Le volant d'inertie tourne plus rapidement lorsque vous misez sur une plate-forme plutôt que sur des produits individuels.
Comment aborder votre parcours de migration de données en confiance
Combien de temps vos migrations de données vont-elles durer ? Six mois ? Deux ans ? Quels sont les efforts à fournir et cela en vaut-il la peine ?
Si vous migrez d'un cloud à un autre, ce sera probablement plus facile que de migrer d'un système sur site vers le cloud, simplement parce que votre intégration technologique est généralement plus avancée sur site. Concentrez-vous sur votre objectif, ce qui revient à vous demander : "À quelle vitesse puis-je innover ?"
Réfléchissez à toutes les tâches innovantes que vous souhaitez accomplir et qui vous sont interdites aujourd'hui, puis configurez de nouveaux projets et transférez les données dont vous avez besoin pour les mener à bien. Nous pouvons vous aider à créer ces nouveaux cas d'utilisation et à mettre en miroir les sources de données dont vous aurez besoin. Pendant un certain temps, vous serez dans un environnement hybride dans lequel de nombreux cas d'utilisation s'exécutent sur site, mais basés sur des données mises en miroir en temps réel ou de manière groupée depuis votre environnement sur site ou un autre fournisseur cloud.
Votre deuxième souci concerne le coût. Examinez les instances Teradata très coûteuses que vous exécutez. Nous constatons que les clients réduisent leurs coûts de moitié en passant à BigQuery, et ces migrations sont bien plus faciles à réaliser qu'auparavant grâce à des outils d'évaluation et des compilateurs SQL automatisés qui permettent de convertir la grande majorité de vos scripts. Nous avons des moyens pour virtualiser les tâches afin que vos clients aient l'impression de communiquer avec Teradata lorsqu'ils s'adressent à BigQuery. Nous pouvons vous aider à migrer de nombreuses manières sans que vous deviez tout arrêter. Nous mettons des outils de migration à votre disposition pour que vous puissiez renoncer à vos charges de travail Teradata et Hadoop coûteuses.
Le troisième point consiste à examiner vos systèmes ERP, tels que SAP, les systèmes Salesforce et Oracle. Si vous voulez optimiser votre chaîne d'approvisionnement, réaliser un classement de vos prospects ou détecter des fraudes, il est important de pouvoir associer vos charges de travail d'analyse de données à vos systèmes ERP. Nous pouvons utiliser des connecteurs tiers pour obtenir des données à partir de ces systèmes, et nous en servir ensuite pour créer dans le cloud des cas d'utilisation modernes de ces données basés sur l'IA.
L'ordre dans lequel vous procédez dépend de votre situation. Si vous êtes une start-up, vous pouvez commencer par l'innovation, passer à l'optimisation des coûts, puis utiliser des pipelines et des connecteurs existants. Si votre entreprise est fortement dépendante des chaînes d'approvisionnement, vous pouvez commencer par les connecteurs ERP. Quel que soit l'ordre dans lequel vous suivez ces trois étapes, vous constaterez que vous avez migré une quantité considérable de votre infrastructure de données de valeur vers le cloud. Maintenant, examinez ce qui reste à migrer et demandez-vous si cela en vaut la peine. La réponse est souvent non : une fois que vous avez déplacé 70 à 80 % des charges de travail qui sont vraiment nécessaires, vous devez prendre des décisions difficiles. Est-il vraiment utile de migrer les 20 à 30 % restants ? Ne vaudrait-il pas mieux réécrire le tout ou procéder différemment ? Vous n'avez peut-être pas intérêt à migrer toutes les données vers le cloud en l'état. Vous risquez de répliquer toute la dette technologique que vous aviez sur site dans votre nouvel environnement cloud, au lieu de vous concentrer sur la valeur des données.
Documentation complémentaire
Nous avons beaucoup parlé de l'exploitation de vos données, de ce que cela signifie, et des éléments à prendre en compte lors de la migration vers un entrepôt de données dans le cloud.
Pour en savoir davantage sur la manière dont Google Cloud peut aider votre entreprise à exploiter les insights pour s'assurer un avantage significatif, à réduire les coûts et à améliorer la productivité en optimisant l'utilisation des données et de l'IA, n'hésitez pas à nous contacter.
Autres ressources
- Découvrez à quel type d'unité de traitement des données vous correspondez
- Pour en savoir plus sur les éléments permettant de créer une plate-forme de données analytiques en fonction de votre type d'organisation, consultez cet article.
Prêt à passer aux étapes suivantes ?
Remplissez le formulaire, et nous vous contacterons. Afficher le formulaire