Accéder au contenu
Formations et certifications

Accélérez les workflows de la science des données avec Looker

2 août 2021
https://storage.googleapis.com/gweb-cloudblog-publish/images/GCP_x_Looker.max-2000x2000.jpg
Shingi Samudzi

Data Analyst Consultant, Google Cloud

Essayer GCP

Les nouveaux clients peuvent explorer et évaluer Google Cloud avec des conditions exceptionnelles.

Essayer

Désormais intégrée à Google Cloud, la plate-forme moderne d'analyse et d'informatique décisionnelle Looker est bien plus qu'un outil de reporting. C'est une plate-forme complète pour les applications de données et les visualisations qui permet aux utilisateurs d'organiser et de publier leurs données. Looker s'intègre à une large gamme de points de terminaison de différents formats, tels que CSV, Excel et JSON, mais aussi à des applications internes personnalisées ou de type logiciel en tant que service (SaaS). 

Dans cet article, je vous expliquerai comment les analystes de données et les data scientists peuvent utiliser Looker pour leurs tâches de gouvernance de données, c'est-à-dire pour gérer la disponibilité, l'usabilité, l'intégrité et la sécurité des données des systèmes d'entreprise. La gouvernance des données est une première étape indispensable pour exécuter des opérations de machine learning automatisées et évolutives. Pour bénéficier d'une démonstration en direct, et voir concrètement comment automatiser les workflows de science des données et les implémenter dans un environnement de production avec Looker, inscrivez-vous ici au webinaire que j'animerai le 4 mars. Vous pourrez également le visionner à la demande après cette date.

https://storage.googleapis.com/gweb-cloudblog-publish/images/looker_bi.max-2000x2000.jpg
Cliquez sur l'image pour l'agrandir

Les data scientists consacrent 45 % de leur temps à des tâches de préparation comme charger ou nettoyer les données, ce qui représente une charge opérationnelle et financière importante. On demande aussi souvent aux analystes de données et aux data scientists de démontrer rapidement la valeur de la science des données, car les acteurs économiques doutent de son retour sur investissement. Et c'est difficile, car ils doivent prendre le temps de concevoir leurs propres pipelines de données pour chaque projet.

En parallèle, les silos de données perdurent. En effet, différentes équipes continuent de créer des rapports similaires à partir de sources de données différentes, et même avec des outils différents. Les choses se compliquent encore à mesure que les entreprises se développent, car leurs besoins en rapports basés sur le machine learning ou l'IA augmentent. Dans de telles situations, il est impératif d'avoir recours à la gouvernance des données. Malheureusement, cette option est souvent envisagée à la dernière minute, voire complètement occultée. 

Grâce aux capacités de publication de la plate-forme, les utilisateurs professionnels, les analystes de données et les data scientists peuvent utiliser Looker comme un centre de tri des données pour toute l'entreprise. De plus, le langage de modélisation LookML, qui extrait les requêtes SQL, constitue un moyen simple d'implémenter la gouvernance des données en tant que service basé sur plusieurs entrepôts de données en SQL.

Rassembler la gouvernance et la publication des données au même endroit permet de réduire de manière significative le temps que les analystes de données et les data scientists consacrent à l'acquisition et au nettoyage de base des données.  

Pour vous aider à visualiser le concept, je vais tenter une analogie : imaginez une pièce dans laquelle se trouvent trois personnes. La première veut construire une maison, la deuxième veut fabriquer un meuble, et la troisième, un cadre. Elles peuvent couper des arbres, préparer le bois et fabriquer leurs pièces chacune de leur côté, ou bien elles peuvent se rendre dans un magasin de bricolage, acheter le bois dont elles ont besoin et ainsi consacrer tout leur temps à la fabrication.  

Dans le premier scénario, les trois personnes doivent transformer un matériau brut en pièces de bois utilisables avant de s'atteler à la construction. Il serait plus efficace d'avoir recours au même processus d'approvisionnement en amont, puisque leur matériau provient de la même source.

Dans cette analogie, le magasin de bricolage représente Looker. C'est un espace de vente de données au détail qui centralise les processus d'acquisition, de contrôle qualité et d'entreposage des données. Il les met ensuite à la disposition de n'importe quel type d'utilisateur final dans un format prêt à l'emploi et ce, pour tout type d'utilisation finale. Looker agit ainsi comme une couche sémantique qui convertit de manière flexible les données provenant d'un entrepôt sous-jacent dans un format permettant à n'importe quel type d'utilisateur final de les exploiter immédiatement.

Chaque équipe ou service de votre entreprise qui devait auparavant créer ses propres pipelines de données, rapports Excel ou outils de reporting peut maintenant collecter les données au même endroit, et ainsi concentrer ses efforts sur la distribution ou la transformation finale des données pour ses propres besoins.

Assurant la gouvernance des données dans toute l'entreprise via un espace de vente au détail bien défini, Looker révolutionne le processus d'acquisition des données. Alors qu'il fallait se battre pendant des jours avec des données de sources distinctes pour mener à bien les tâches de nettoyage de base (transformer les types de colonnes, comprendre le nom des colonnes, supprimer les "N/A" et même vérifier que chaque ensemble contient les bonnes données), il suffit maintenant de quelques minutes pour effectuer des requêtes très simples sur des ensembles de données déjà validés et générer les résultats dans un notebook d'IA.

https://storage.googleapis.com/gweb-cloudblog-publish/images/looker_bi_2.max-2000x2000.jpg
  Cliquez sur l'image pour l'agrandir

Looker s'intègre aussi au backend des workflows de science des données, en partageant les performances du modèle et ses résultats de manière à les rendre facilement explorables dans toute l'entreprise.

Publié dans