L'ETL fait référence au processus d'extraction, de transformation et de chargement. Il est généralement utilisé par les organisations pour combiner des données provenant de plusieurs systèmes dans une base de données, un data store, un entrepôt de données ou un lac de données. L'ETL peut servir à stocker d'anciennes données ou, ce qui est plus courant aujourd'hui, à agréger des données en vue de les analyser et de prendre des décisions d'entreprise éclairées.
Les organisations utilisent l'ETL depuis des dizaines d'années. Mais la nouveauté réside dans le fait que les sources de données et les bases de données cibles migrent progressivement vers le cloud.
Nous assistons par ailleurs à l'émergence de pipelines ETL de flux de données, qui sont désormais unifiés avec les pipelines de données par lot. En d'autres termes, nous avons d'un côté des pipelines qui gèrent des flux de données continus en temps réel, et de l'autre des données gérées dans des lots agrégés. Certaines entreprises exécutent des processus de traitement par flux continu en les combinant avec des pipelines de remplissage ou de retraitement par lot.
Découvrez le portefeuille de services ETL de Google Cloud, tels que Cloud Data Fusion, Dataflow et Dataproc.
Prêt à vous lancer ? Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.
L'ETL décrit le processus de bout en bout par lequel une entreprise extrait l'intégralité des données (structurées, non structurées et gérées par des d'équipes du monde entier) et les exploite de manière à obtenir des informations réellement utiles à des fins commerciales.
Aujourd'hui, les solutions ETL doivent être capables de gérer la vitesse et le volume croissants de données. De plus, la capacité à ingérer, à enrichir et à gérer des transactions, ainsi qu'à traiter à la fois des données structurées et non structurées en temps réel depuis n'importe quelle source, que ce soit sur site ou dans le cloud, est désormais une exigence de base pour les solutions ETL.
Extraction
L'extraction est le processus de récupération de données depuis une ou plusieurs sources, qu'elles soient en ligne, sur site, anciennes, SaaS ou autres. Après la récupération (ou l'extraction), les données sont chargées dans une zone de stockage intermédiaire.
Transformation
La transformation consiste à prendre ces données, à les nettoyer et à les convertir dans un même format, afin de pouvoir les stocker dans une base de données, un data store, un entrepôt de données ou un lac de données cible. Le nettoyage consiste généralement à supprimer les enregistrements en double, incomplets ou visiblement incorrects.
Chargement en cours
Le chargement est le processus d'insertion des données formatées dans la base de données, le data store, l'entrepôt de données ou le lac de données cible.
L'ETL est un excellent moyen de collecter toutes les données pertinentes dans un même endroit pour les rendre exploitables, afin de les analyser et de permettre aux cadres, gestionnaires et autres acteurs de prendre des décisions commerciales éclairées en fonction de ces données. L'ETL est couramment utilisé pour les tâches suivantes :
Entreposage de données
Un entrepôt de données est une base de données dans laquelle sont combinées des données provenant de sources diverses afin de pouvoir les analyser ensemble à des fins commerciales. L'ETL est souvent utilisé pour déplacer des données vers un entrepôt de données.
Machine learning et intelligence artificielle
Le machine learning (ML) est un moyen d'exploiter les données sans programmer explicitement de modèles analytiques. À la place, le système apprend des données à l'aide de techniques d'intelligence artificielle. L'ETL peut être utilisé pour déplacer des données vers un emplacement unique à des fins de ML.
Intégration des données marketing
L'intégration des données marketing consiste à déplacer toutes vos données marketing, telles que les données des clients, des réseaux sociaux et d'analyse d'audience Internet, vers un emplacement unique. Vous pouvez ainsi les analyser et élaborer des plans d'avenir. L'ETL permet de collecter et de préparer des données marketing.
Intégration des données IoT
L'IoT est l'ensemble des appareils connectés capables de collecter et de transmettre des données à travers des capteurs intégrés dans le matériel. Les appareils IoT peuvent inclure des équipements d'usine, des serveurs réseau, des smartphones et bien d'autres types de machines, y compris les accessoires connectés et les appareils implantés. L'ETL aide à déplacer des données provenant de sources IoT diverses vers un emplacement unique à partir duquel vous pouvez les analyser.
Réplication de base de données
La réplication de base de données extrait des données de vos bases de données sources, comme Oracle, Cloud SQL pour MySQL, Microsoft SQL Server, Cloud SQL pour PostgreSQL, MongoDB ou autres, et les copie dans votre entrepôt de données cloud. Il peut s'agir d'une opération unique ou d'un processus continu au fur et à mesure que vos données sont mises à jour. L'ETL peut être utilisé pour répliquer les données.
Migration vers le cloud
Les entreprises déplacent leurs données et leurs applications sur site vers le cloud afin de rendre leurs applications plus évolutives, de sécuriser leurs données et de faire des économies. L'ETL est couramment utilisé pour effectuer ces migrations.
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.