Che cos'è una data lakehouse?

Le organizzazioni di tutto il mondo sono alla ricerca di soluzioni di archiviazione per gestire i requisiti di volume, latenza, resilienza e accesso ai dati dei big data. Inizialmente, le aziende hanno utilizzato i loro stack tecnologici esistenti, cercando di far sì che i loro data lake offrissero le stesse funzionalità di un warehouse, modificando i data warehouse per gestire enormi quantità di dati semistrutturati o scegliendo di conservare i dati in entrambi.

In definitiva, questi approcci hanno comportato costi elevati, utenti scontenti e duplicazione dei dati in tutta l'azienda. La data lakehouse è emersa come una nuova architettura dati ibrida che mira a offrire tutti i migliori vantaggi dei data warehouse e dei data lake, eliminando al contempo i punti deboli di entrambi i sistemi.

Google Cloud fornisce una soluzione di data lakehouse cloud-native, a scalabilità elevata e sicura, basata su archiviazione a basso costo, motori serverless computing e potenti offerte di gestione dei dati. Scopri di più su come creare una data lakehouse aperta su Google Cloud.

Definizione di data lakehouse

Una data lakehouse è un'architettura di dati che combina un data lake e un data warehouse. Le data lakehouse abilitano machine learning, business intelligence e analisi predittiva, consentendo alle organizzazioni di sfruttare un'archiviazione flessibile a basso costo per tutti i tipi di dati (strutturati, non strutturati e semistrutturati), fornendo al contempo strutture di dati e funzionalità di gestione dei dati.

Che cos'è una lakehouse?

Una data lakehouse è una moderna architettura di dati che crea un'unica piattaforma combinando i vantaggi principali dei data lake (grandi repository di dati non elaborati nella loro forma originale) e dei data warehouse (set organizzati di dati strutturati). In particolare, le data lakehouse consentono alle organizzazioni di utilizzare un'archiviazione a basso costo per grandi quantità di dati non elaborati, fornendo al contempo funzioni di gestione della struttura e dei dati.

In passato, i data warehouse e i data lake dovevano essere implementati come architetture isolate e separate per evitare di sovraccaricare i sistemi sottostanti e creare conflitti per le stesse risorse. Le aziende hanno utilizzato i data warehouse per archiviare dati strutturati per la business intelligence (BI) e il reporting e i data lake per archiviare dati non strutturati e semistrutturati per workload di intelligenza artificiale (AI) e machine learning (ML). Ma questo approccio richiedeva lo spostamento regolare dei dati tra i due sistemi separati quando i dati di entrambe le architetture dovevano essere elaborati insieme, creando complessità, costi più elevati e problemi di aggiornamento, duplicazione e coerenza dei dati.

Le data lakehouse mirano ad abbattere questi silos e a offrire la flessibilità, la scalabilità e l'agilità necessarie per garantire che i dati generino valore per la tua azienda, piuttosto che inefficienze.

Data lakehouse, data lake e data warehouse a confronto

Il termine "data lakehouse" fonde due tipi di repository di dati esistenti: il data warehouse e il data lake. Quindi, quali sono esattamente le differenze tra data lakehouse, data lake e data warehouse?

Data warehouse

I data warehouse offrono accesso rapido ai dati e compatibilità SQL per gli utenti aziendali che hanno bisogno di generare report e insight per il processo decisionale. Tutti i dati devono passare per la fase ETL (estrazione, trasformazione, caricamento). Ciò significa che vengono ottimizzati in un formato o schema specifico, in base al caso d'uso, prima che vengano caricati per supportare query ad alte prestazioni e integrità dei dati. Tuttavia, questo approccio limita la flessibilità dell'accesso ai dati e crea costi aggiuntivi se i dati devono essere spostati per un uso futuro.

Data lake

I data lake archiviano grandi quantità di dati non strutturati e strutturati nel loro formato nativo. A differenza dei data warehouse, i dati vengono elaborati, puliti e trasformati durante l'analisi per consentire velocità di caricamento più elevate, il che li rende ideali per elaborazione di big data, machine learning o analisi predittiva. Tuttavia, richiedono competenza nella data science, il che limita il gruppo di persone che possono utilizzare i dati e, se non vengono gestiti correttamente, la qualità dei dati può peggiorare nel tempo. Inoltre, i data lake rendono più difficile ottenere query in tempo reale poiché i dati non sono elaborati, quindi potenzialmente devono comunque essere puliti, elaborati, importati e integrati prima di poter essere utilizzati.

Data lakehouse

Una data lakehouse fonde questi due approcci per creare un'unica struttura che consente di accedere ai dati e utilizzarli per molti scopi diversi, dalla BI alla data science fino all'AI e al machine learning. In altre parole, una data lakehouse acquisisce tutti i dati non strutturati, strutturati e semistrutturati della tua organizzazione e li archivia in uno spazio di archiviazione a basso costo, fornendo al contempo a tutti gli utenti le funzionalità per organizzare ed esplorare i dati in base alle esigenze.

Funzionalità delle data lakehouse

Le funzionalità principali della data lakehouse includono:

Un unico datastore a basso costo per tutti i tipi di dati (strutturati, non strutturati e semistrutturati)
Funzionalità di gestione dei dati per applicare schemi e governance dei dati, oltre a fornire processi ETL e pulizia dei dati
Supporto delle transazioni per le proprietà ACID (atomicità, coerenza, isolamento e durabilità) per garantire la coerenza dei dati quando più utenti leggono e scrivono dati contemporaneamente
Formati di archiviazione standardizzati che possono essere utilizzati in più programmi software
Streaming end-to-end per supportare l'importazione di dati in tempo reale e la generazione di insight
Risorse di calcolo e archiviazione separate per garantire la scalabilità per una serie diversificata di carichi di lavoro
Interoperabilità con motori open source come Apache Spark e piattaforme di analisi basate su SQL come BigQuery
Governance end-to-end e gestione dei metadati per tutti i dati
Accesso diretto per le app BI ai dati di origine nella lakehouse per ridurre la duplicazione dei dati.

Come funziona una data lakehouse?

Per far funzionare una data lakehouse, è importante considerare i suoi obiettivi. Le data lakehouse mirano a centralizzare le diverse origini dati e a semplificare gli sforzi di progettazione in modo che tutti all'interno dell'organizzazione possano essere utenti dei dati.

Una data lakehouse utilizza la stessa archiviazione di oggetti cloud a basso costo dei data lake per fornire archiviazione on demand e semplificare il provisioning e la scalabilità. Come un data lake, è in grado di acquisire e archiviare grandi volumi di tutti i tipi di dati in formato non elaborato. La lakehouse integra livelli di metadati in questo archivio per fornire funzionalità simili a quelle di un warehouse, come schemi strutturati, supporto per transazioni ACID, governance dei dati e altre funzionalità di gestione e ottimizzazione dei dati.

Vantaggi dell'utilizzo di una data lakehouse

Architettura semplificata Una data lakehouse rimuove i silos di due piattaforme separate, quindi devi concentrarti solo sulla gestione e sulla manutenzione di un unico repository di dati. Gli strumenti possono anche essere collegati direttamente ai dati di origine, pertanto non devi estrarre o preparare i dati da utilizzare in un data warehouse.	Migliore qualità dei dati Puoi applicare schemi per dati strutturati e integrità dei dati nelle architetture delle data lakehouse, per garantire la coerenza. Inoltre, le lakehouse riducono il tempo per rendere disponibili nuovi dati, garantendo dati più aggiornati.	Riduzione dei costi Archivia enormi volumi di dati in uno spazio di archiviazione a basso costo ed elimina la necessità di gestire sia un data warehouse sia un data lake. Le data lakehouse consentono anche di ridurre i costi dei processi ETL e della deduplicazione.
Maggiore affidabilità Le data lakehouse riducono i trasferimenti di dati ETL tra più sistemi, riducendo la possibilità di problemi di qualità o tecnici che possono verificarsi con lo spostamento dei dati.	Governance dei dati migliorata Dati e risorse vengono consolidati in un'unica posizione con le data lakehouse, che semplificano l'implementazione, il test e l'applicazione dei controlli di governance e sicurezza.	Duplicazione dei dati ridotta Maggiore è il numero di copie dei dati che esistono in sistemi diversi, più è probabile che siano incoerenti e meno affidabili. Con le data lakehouse puoi ottenere un'unica origine di dati che può essere condivisa in tutta l'azienda per prendere decisioni, evitando incongruenze e costi di archiviazione aggiuntivi causati dalla duplicazione dei dati.
Carichi di lavoro diversi Puoi connettere più strumenti direttamente alla lakehouse per supportare carichi di lavoro di analisi, SQL, machine learning e data science dallo stesso repository.	Elevata scalabilità L'archiviazione a basso costo di oggetti cloud delle data lakehouse consente di disaccoppiare il calcolo dall'archiviazione per fornire una scalabilità quasi illimitata e istantanea. Puoi scalare la potenza di calcolo e l'archiviazione separatamente in base alle tue esigenze aziendali.

Architettura semplificata

Una data lakehouse rimuove i silos di due piattaforme separate, quindi devi concentrarti solo sulla gestione e sulla manutenzione di un unico repository di dati. Gli strumenti possono anche essere collegati direttamente ai dati di origine, pertanto non devi estrarre o preparare i dati da utilizzare in un data warehouse.

Migliore qualità dei dati

Puoi applicare schemi per dati strutturati e integrità dei dati nelle architetture delle data lakehouse, per garantire la coerenza. Inoltre, le lakehouse riducono il tempo per rendere disponibili nuovi dati, garantendo dati più aggiornati.

Riduzione dei costi

Archivia enormi volumi di dati in uno spazio di archiviazione a basso costo ed elimina la necessità di gestire sia un data warehouse sia un data lake. Le data lakehouse consentono anche di ridurre i costi dei processi ETL e della deduplicazione.

Maggiore affidabilità

Le data lakehouse riducono i trasferimenti di dati ETL tra più sistemi, riducendo la possibilità di problemi di qualità o tecnici che possono verificarsi con lo spostamento dei dati.

Governance dei dati migliorata

Dati e risorse vengono consolidati in un'unica posizione con le data lakehouse, che semplificano l'implementazione, il test e l'applicazione dei controlli di governance e sicurezza.

Duplicazione dei dati ridotta

Maggiore è il numero di copie dei dati che esistono in sistemi diversi, più è probabile che siano incoerenti e meno affidabili. Con le data lakehouse puoi ottenere un'unica origine di dati che può essere condivisa in tutta l'azienda per prendere decisioni, evitando incongruenze e costi di archiviazione aggiuntivi causati dalla duplicazione dei dati.

Carichi di lavoro diversi

Puoi connettere più strumenti direttamente alla lakehouse per supportare carichi di lavoro di analisi, SQL, machine learning e data science dallo stesso repository.

Elevata scalabilità

L'archiviazione a basso costo di oggetti cloud delle data lakehouse consente di disaccoppiare il calcolo dall'archiviazione per fornire una scalabilità quasi illimitata e istantanea. Puoi scalare la potenza di calcolo e l'archiviazione separatamente in base alle tue esigenze aziendali.

Sfide legate all'utilizzo di una data lakehouse

Il concetto di data lakehouse si è evoluto nel tempo, poiché le organizzazioni vogliono la massima flessibilità sullo spazio di archiviazione dei dati e una maggiore scelta e interoperabilità con i motori di elaborazione e analisi dei dati. Inoltre, le data lakehouse sono complesse da creare da zero e ora devono essere profondamente connesse alle funzionalità di AI. Nella maggior parte dei casi, dovrai optare per una soluzione di data lakehouse pronta all'uso o utilizzare una piattaforma come Google Cloud che offre tutti i componenti necessari per supportare un'architettura lakehouse aperta.

Livelli di architettura di data lakehouse

Un'architettura di data lakehouse è composta dai seguenti livelli:

Livello di archiviazione: il livello di archiviazione è il livello del data lake per tutti i tuoi dati non elaborati, in genere un archivio di oggetti a basso costo per tutti i tuoi set di dati non strutturati, strutturati e semistrutturati. È disaccoppiato dalle risorse di calcolo in modo che il calcolo possa scalare in modo indipendente.
Livello di gestione temporanea: il livello di gestione temporanea è il livello di metadati che si trova nella parte superiore del livello del data lake. Fornisce un catalogo dettagliato su tutti gli oggetti dati archiviati, consentendoti di applicare funzionalità di gestione dei dati, come applicazione di schema, proprietà ACID, indicizzazione, memorizzazione nella cache e controllo dell'accesso.
Livello semantico: il livello semantico, il livello lakehouse, espone tutti i tuoi dati per l'uso e qui gli utenti possono utilizzare app client e strumenti di analisi per accedere ai dati e utilizzarli per la sperimentazione e la presentazione di business intelligence.

Apache Iceberg sta trasformando le lakehouse di dati

Apache Iceberg sta rivoluzionando le architetture lakehouse fornendo un formato di tabella aperto che offre funzionalità simili a quelle di un data warehouse, come transazioni ACID, evoluzione dello schema e spostamento cronologico, direttamente ai data lake archiviati in un servizio di archivio di oggetti. Ciò consente alle aziende di creare piattaforme di dati altamente scalabili, performanti e flessibili che sono interoperabili tra vari motori di analisi ed evitano il blocco del fornitore.

L'approccio di Google Cloud è stato quello di fornire alle aziende una data lakehouse aperta, gestita e ad alte prestazioni basata su BigLake, un motore di archiviazione unificato che offre un'implementazione nativa per Apache Iceberg su Cloud Storage, dove puoi sfruttare la tua scelta di motori open source direttamente sui dati Iceberg. BigLake Metastore semplifica la gestione dei dati e si integra con il catalogo universale Dataplex per una governance unificata. Puoi applicare un controllo dell'accesso granulare e accelerare le prestazioni delle query sui dati distribuiti.

Questo approccio, combinato con l'archiviazione e la potenza di calcolo di BigQuery, è al centro della data lakehouse gestita e ad alte prestazioni che supporta i workload di analisi avanzata, flussi di dati e AI/ML con Iceberg. BigQuery non è solo integrato con l'ecosistema Google Cloud, ma consente anche di utilizzare tecnologie di partner e open source per combinare il meglio delle funzionalità di lake e warehouse in un unico sistema.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Parla con un esperto delle vendite di Google Cloud per discutere della tua sfida unica in modo più dettagliato.