Che cos'è l'ETL?

ETL sta per estrazione, trasformazione e caricamento ed è un modo tradizionalmente accettato dalle organizzazioni per combinare i dati di più sistemi in un unico database, datastore, data warehouse o data lake. L'ETL può essere utilizzato per archiviare i dati legacy, oppure, come accade generalmente oggi, aggregare i dati per analizzare e guidare le decisioni aziendali.  

Le organizzazioni utilizzano l'ETL da decenni. La novità è che sia le origini dati sia i database di destinazione si stanno ora spostando verso il cloud.

Inoltre, stiamo assistendo alla nascita di pipeline ETL in modalità flusso, ora unificate con pipeline in modalità batch, ovvero pipeline che gestiscono flussi continui di dati in tempo reale rispetto ai dati gestiti in batch aggregati. Alcune aziende eseguono processi di elaborazione dei flussi di dati continua con pipeline di rielaborazione o backfill in modalità batch coinvolte nel processo.

Ulteriori informazioni sul portafoglio di servizi Google Cloud che supportano l'ETL, tra cui Cloud Data Fusion, Dataflow e Dataproc.

Definizione di ETL

L'ETL descrive il processo end-to-end con cui un'azienda prende la sua intera gamma di dati, strutturati, non strutturati e gestiti da un numero qualsiasi di team da qualsiasi parte del mondo, e li porta ad uno stato in cui sono effettivamente utili per scopi commerciali.

Le moderne soluzioni ETL di oggi devono far fronte all'accelerazione del volume e della velocità dei dati. Inoltre, la capacità di importare, arricchire e gestire le transazioni e di supportare dati strutturati e non strutturati in tempo reale da qualsiasi origine, sia on-premise che nel cloud, è ora un requisito fondamentale per le soluzioni ETL aziendali di oggi.

Come funziona l'ETL basato su cloud

Estrazione

L'estrazione è il processo di recupero dei dati da una o più origini online, on-premise, legacy, SaaS o di altro tipo. Una volta completato il recupero, o l'estrazione, i dati vengono caricati in un'area temporanea.

Trasformazione

La trasformazione consiste nel prendere quei dati, pulirli e inserirli in un formato comune, in modo che possano essere archiviati in un database, in un datastore, in un data warehouse o in un data lake target. La pulizia solitamente comporta l'eliminazione di record duplicati, incompleti o ovviamente errati.

Caricamento

Il caricamento è il processo di inserimento dei dati formattati nel database, nel datastore, nel data warehouse o nel data lake target.

Casi d'uso ETL

L'ETL rappresenta un metodo fondamentale per riunire tutti i dati pertinenti in un'unica posizione in modo da renderli utilizzabili, consentirne l'analisi e permettere a dirigenti, manager e altri stakeholder di prendere decisioni aziendali consapevoli. L'ETL viene comunemente impiegato per:

Data warehousing

Un data warehouse è un database in cui vengono combinati dati provenienti da varie origini in modo da poter essere analizzati collettivamente per scopi aziendali. L'ETL è spesso utilizzato per trasferire i dati in un data warehouse.

Machine learning e intelligenza artificiale

Il machine learning (ML) è un modo per attribuire un senso ai dati senza programmare esplicitamente i modelli analitici. Il sistema, infatti, apprende dai dati utilizzando tecniche di intelligenza artificiale. L'ETL può essere utilizzato per trasferire i dati in un'unica posizione per scopi di ML.

Integrazione dei dati di marketing

L'integrazione dei dati di marketing comporta il trasferimento di tutti i dati di marketing, come i dati dei clienti, dei social network e dell'analisi dei dati web, in un unico luogo, in modo da poterli analizzare e usarli per sviluppare piani futuri. L'ETL viene utilizzato per raccogliere e preparare i dati di marketing.

Integrazione dei dati IoT

L'IoT è la raccolta di dispositivi collegati in grado di raccogliere e trasmettere dati attraverso sensori integrati nell'hardware. I dispositivi IoT possono includere attrezzature di fabbrica, server di rete, smartphone o una vasta gamma di altre macchine, anche indossabili e dispositivi impiantati. L'ETL aiuta a trasferire i dati da più origini IoT in un unico luogo dove possono essere analizzati.

Replica dei database

La replica dei database acquisisce i dati dai tuoi database di origine, come Oracle, Cloud SQL per MySQL, Microsoft SQL Server, Cloud SQL per PostgreSQL, MongoDB o altri, e li copia nel tuo data warehouse su cloud. Può trattarsi di un'operazione una tantum o di un processo continuo che avviene man mano che i dati vengono aggiornati, e l'ETL può essere utilizzato per replicare i dati.

Migrazione nel cloud

Le aziende stanno trasferendo i loro dati e le loro applicazioni da on-premise al cloud per risparmiare denaro, rendere le loro applicazioni più scalabili e proteggere i loro dati: l'ETL viene comunemente impiegato per eseguire queste migrazioni.