Démocratisation des données et des insights : rendre l'analyse en temps réel omniprésente
Sudhir Hasbe
Sr. Director of Product Management, Google Cloud
Ryan Lippert
Product Manager
Essayer GCP
Les nouveaux clients peuvent explorer et évaluer Google Cloud avec des conditions exceptionnelles.
EssayerDans le premier article de blog de cette série, nous avons dressé les grandes lignes de la démocratisation des données et des insights. Notre second article de blog s'est penché plus en profondeur sur les insights du machine learning, ainsi que sur les efforts déployés par Google Cloud pour offrir ces capacités à un plus grand nombre d'utilisateurs. Dans le troisième et dernier article de blog de cette série, nous allons appréhender l'accès aux données, les insights sur les données et le machine learning dans le contexte de la prise de décision en temps réel.
L'analyse de données en temps réel
Commençons par nous pencher sur l'analyse de données en temps réel et la combinaison de facteurs qui la rend de plus en plus essentielle au succès de l'entreprise.
Tout d'abord, notons que la nature des données tend de plus en plus vers le "temps réel". D'après une prédiction d'IDC, d'ici 2025, plus de 25 % de la totalité des données générées seront en temps réel. Quels sont les facteurs qui sous-tendent cette croissance ? Il existe un certain nombre de facteurs représentant une tendance globale vers la numérisation, non seulement dans le cadre de l'entreprise, mais dans la société en général. Ces facteurs incluent, entre autres, les appareils numériques, l'utilisation de l'IoT dans la production industrielle et la logistique, le commerce en ligne, les communications numériques et la consommation de médias numériques. Exploiter les données en temps réel générées par ces activités permet aux entreprises de mieux analyser leur marché, leur concurrence et, plus que tout, leurs clients.
Par ailleurs, les clients ont des attentes plus élevées en termes de personnalisation. Ils s'attendent à être traités comme un "segment individuel" pour l'ensemble de leurs recommandations, offres, expériences, etc. Les entreprises sont conscientes de cela et sont en concurrence entre elles pour proposer la meilleure expérience utilisateur et client possible. Les clients Google Cloud tels qu'AB Tasty traitent chaque jour des milliards d'événements en temps réel pour des millions d'utilisateurs, dans le but précis de proposer à leurs propres clients une expérience optimisée pour des segments d'utilisateurs de plus en plus étroits et ciblés.
Grâce à notre nouveau pipeline et à notre nouvel entrepôt de données, nous pouvons offrir un accès personnalisé à d'importants volumes de données qui n'existaient pas auparavant. Cela mène à de nouveaux insights et de nouvelles corrélations, et donc à de meilleures décisions et une augmentation du revenu pour les clients.
Jean-Yves Simon, VP Product, AB Tasty
Enfin, l'analyse en temps réel montre tout son intérêt lorsqu'il existe une opportunité de conduire des actions rapides basées sur les insights. Le principe de numérisation impliqué dans la génération de données en temps réel fournit également une opportunité d'action immédiate dans le cadre d'une boucle de rétroaction instantanée. Que l'action implique de proposer des recommandations en direct pour le commerce en ligne, de rediriger des véhicules de livraison en fonction des informations de trafic en temps réel, de modifier le niveau de difficulté d'une session de jeu en ligne, de recalibrer numériquement un processus de fabrication, d'empêcher une tentative de fraude avant l'enregistrement d'une transaction, et il ne s'agit là que de quelques exemples, les technologies d'aujourd'hui offrent l'opportunité d'améliorer la réactivité et l'efficacité de l'entreprise.
Démocratiser l'analyse de données en temps réel
Dans cet espace, nous envisageons la démocratisation sous deux angles différents. Le premier est l'approche standard qui s'attache à élargir le champ des possibilités pour les différents types de personnes travaillant avec des données : "comment pouvons-nous donner à davantage d'utilisateurs les moyens de générer des insights en temps réel ?"
Le second angle est la démocratisation à l'échelle de l'entreprise, particulièrement pour l'analyse de flux. Commençons par passer en revue nos actions en faveur de la transition des entreprises vers le temps réel, puis nous nous pencherons plus en détail sur la manière dont nous aidons différents types d'utilisateurs.
Démocratiser l'analyse de flux pour l'ensemble des entreprises
La collecte, le traitement et les actions sur des données en temps réel ont historiquement représenté des défis particulièrement difficiles à relever. La nature même des données en temps réel fait que leur volume et la vitesse à laquelle elles sont générées peuvent connaître des variations d'un cas d'utilisation à l'autre, ce qui ajoute de multiples couches de complexité pour les ingénieurs qui tentent de préserver la fluidité des flux de données. Les compromis inhérents à l'exécution d'un pipeline de données en temps réel ont conduit de nombreux ingénieurs à mettre en œuvre une architecture lambda, dans laquelle ils hébergent à la fois une copie en temps réel des résultats (parfois partielle), ainsi qu'une copie "correcte" ayant suivi le chemin classique du traitement par lot. Outre les défis que représente la réconciliation des données au bout de ces différents pipelines, cette architecture multiplie le nombre de systèmes à gérer et, typiquement, accroît le nombre d'écosystèmes dont ces mêmes ingénieurs ont la charge. Mettre en place une telle architecture et la maintenir en état de fonctionnement nécessitait des équipes importantes d'ingénieurs de données experts.
Google et Google Cloud savaient qu'il devait exister une meilleure façon d'analyser les données en temps réel… Nous l'avons donc créée. Dataflow, utilisé conjointement à Pub/Sub, répond à tous les défis que représentent les systèmes par flux traditionnels, en proposant une expérience entièrement sans serveur, capable de gérer facilement toutes les variations des flux d'événements. Pub/Sub et Dataflow s'adaptent pour utiliser exactement les ressources nécessaires à la tâche en cours, en gérant les performances, le scaling, la disponibilité, la sécurité, et bien plus encore… le tout de manière automatique. Dataflow garantit que les données sont traitées exactement une fois, de manière fiable et cohérente. Les ingénieurs peuvent ainsi avoir toute confiance dans les résultats produits par leurs systèmes. Les tâches Dataflow sont écrites à l'aide du SDK Apache Beam, qui laisse le choix du langage de programmation utilisé pour Dataflow, en plus d'assurer la portabilité. Dataflow permet également aux ingénieurs de données de basculer facilement du mode flux au mode par lot, et vice-versa. Cela signifie que les utilisateurs peuvent faire leurs tests et choisir entre des résultats en temps réel et un traitement par lot plus économique, sans qu'il soit nécessaire d'apporter le moindre changement au code.
Google unifie l'analyse de flux et le traitement par lot. Cela doit être l'objectif lorsque les architectes logiciels créent une solution unifiée de traitement par flux et par lot, qui doit faire preuve d'évolutivité et de flexibilité, réaliser des opérations complexes et présenter la résilience de Rocky Balboa.
Étude "The Forrester Wave™ : Streaming Analytics" (Analyse de flux) du 3e trimestre 2019, par Mike G
Utilisés conjointement, Dataflow et Pub/Sub proposent une expérience intégrée et conviviale qui met l'analyse de données en temps réel à la portée de toutes les entreprises, même si celles-ci ne disposent que d'une équipe limitée d'ingénieurs de données experts. Nous avons vu des équipes de taille réduite, comportant six ingénieurs seulement, traiter des milliards d'événements par jour. Ils peuvent se concentrer sur la création du pipeline et nous laisser gérer le reste.
Démocratiser l'analyse de flux pour tout utilisateur
Après avoir développé une plate-forme mettant le traitement des flux à la portée d'équipes d'ingénierie de données de toutes tailles et tous niveaux d'expérience, nous avons entrepris de faciliter l'accès d'un plus large public à l'analyse en temps réel pour permettre à davantage de gens de prendre de meilleures décisions. Voyons maintenant comment nous avons étendu l'accès à l'analyse en temps réel.
Business et data analysts
Le premier pas garantissant l'accès aux données en temps réel aux data analysts et business analysts consiste à permettre l'ingestion rapide des données dans l'entrepôt de données. BigQuery est conçu pour être "toujours rapide et toujours à jour". Il permet des insertions en flux continu dans l'entrepôt de données à des débits de plusieurs millions d'événements par seconde. Ceci offre aux utilisateurs de l'entrepôt de données la possibilité de travailler sur les données les plus récentes, ce qui permet des analyses précises dans les plus brefs délais.
Outre les insights typiquement dérivés des données de l'entrepôt par les analystes, ceux-ci peuvent également appliquer les capacités de machine learning fournies par BigQuery ML au flux de données en temps réel entrant. Si les data analysts ont connaissance d'une source de données à laquelle ils doivent accéder, mais qui n'est actuellement pas dans l'entrepôt, Dataflow SQL leur permet de connecter de nouveaux flux de sources de données en quelques lignes de SQL simple.
Les capacités temps réel que nous décrivons pour les data analysts ont des effets en cascade pour les business analysts, qui s'appuient sur des tableaux de bord trouvant leur source dans l'entrepôt de données. Le moteur BI Engine de BigQuery permet d'atteindre des temps de réponse aux requêtes inférieurs à la seconde et une simultanéité élevée pour les cas d'utilisations d'informatique décisionnelle, mais l'inclusion de données en temps réel dans l'entrepôt de données fournit aux analystes commerciaux (et à tous ceux qui dépendent d'eux) une meilleure vue d'ensemble des tendances actuelles pertinentes pour votre entreprise. Outre ces capacités en termes d'informatique décisionnelle, les workflows orientés données et les capacités applicatives de Looker peuvent tirer parti des données fréquemment actualisées de BigQuery.
Développeurs ETL
Data Fusion, l'outil ETL sans code de Google Cloud, permet aux développeurs ETL de disposer de capacités de traitement en temps réel en un claquement de doigts. Les utilisateurs de Data Fusion peuvent facilement définir leurs pipelines pour traiter des données en temps réel et envoyer les résultats dans un éventail de services de stockage et de bases de données Google Cloud. De plus, la capacité de Data Fusion à appeler un certain nombre de connecteurs, transformations, récepteurs et autres outils prédéfinis (y compris des API de machine learning), le tout en temps réel, permet aux entreprises d'atteindre un niveau de flexibilité impressionnant sans requérir l'écriture de la moindre ligne de code.
Conclusion
Chaque article de cette série (vous pouvez trouver ici la Partie 1 et la Partie 2) vous a montré comment Google Cloud peut contribuer à démocratiser les données et les insights. Il ne suffit pas de fournir un accès aux données puis d'espérer qu'il en résulte des effets magiques pour votre entreprise. De nos observations, nous avons tiré une formule claire contribuant à une démocratisation réussie de la génération d'idées et d'insights à l'échelle de votre entreprise :
1.Commencez par vous assurer que vous êtes en mesure de fournir un accès étendu aux données pertinentes pour votre activité. Cela signifie que vous devez migrer vers des systèmes dotés de capacités de stockage et de calcul flexibles et capables d'évoluer automatiquement. Cela vous permet d'intégrer de nouvelles sources de données et de nouveaux analystes de données sans requérir d'opérations fastidieuses, ce qui accroît l'agilité de votre entreprise.
2.Faites en sorte que les utilisateurs puissent générer des insights depuis les outils qu'ils connaissent et maîtrisent. En permettant à des utilisateurs existants d'avoir accès à de nouvelles fonctionnalités au sein de leurs outils habituels, vous pouvez aider l'ensemble de votre entreprise à tirer parti des données. De plus, la possibilité d'explorer de nouveaux domaines d'analyse tels que le machine learning permet de maintenir l'intérêt et l'engagement de vos équipes.
3.Une fois que vous avez donné à vos employés la possibilité d'accéder aux données et de dériver des insights de ces données, mettez-les en mesure d'analyser des données en temps réel et d'automatiser les résultats de cette analyse. Ceci vous permettra d'améliorer l'expérience client et aidera votre organisation à tirer parti plus rapidement des opportunités du marché.
Nous espérons que vous avez apprécié cette série et que vous envisagerez de collaborer avec nous pour contribuer à démocratiser l'utilisation des données et insights au sein de votre entreprise. Un bon moyen de faire vos premiers pas consiste à démarrer un essai gratuit ou à vous lancer dans le bac à sable BigQuery, mais n'hésitez pas à nous contacter si vous souhaitez avoir une conversation avec nous.
Étude "The Forrester Wave™ : Streaming Analytics" (Analyse de flux) du 3e trimestre 2019