Vai a

Che cos'è un data lake?

Un data lake è un repository centralizzato progettato per archiviare, elaborare e proteggere grandi quantità di dati strutturati, semistrutturati e non strutturati. È in grado di archiviare i dati nel loro formato nativo e di elaborarne qualsiasi varietà, ignorando i limiti di dimensione.

Scopri di più sulla modernizzazione del tuo data lake su Google Cloud.

Panoramica sui data lake

Un data lake fornisce una piattaforma scalabile e sicura che consente alle aziende di: importare dati da qualsiasi sistema a qualsiasi velocità, anche se i dati provengono da sistemi on-premise, cloud o edge-computing; archiviare qualsiasi tipo o volume di dati ad alta fedeltà; elaborare i dati in tempo reale o in modalità batch; infine, analizzare i dati utilizzando SQL, Python, R o qualsiasi altro linguaggio, dati di terze parti o applicazioni di analisi.

Data lake e data warehouse: un data lake è definito anche da ciò che non è. Non riguarda solo l'archiviazione e non è come un data warehouse.

Anche se i data lake e i data warehouse archiviano dati in una certa capacità, sono ottimizzati per usi diversi. Considerali strumenti complementari piuttosto che concorrenti, poiché le aziende potrebbero aver bisogno di entrambi. Come punto di confronto, i data warehouse sono spesso ideali per il tipo di reporting e analisi ripetibile che è comune nelle pratiche commerciali, come i report mensili sulle vendite, il monitoraggio delle vendite per area geografica o il traffico dei siti web. 

Hai bisogno di un data lake?

Per determinare se la tua azienda ha bisogno di un data lake, devi tenere in considerazione i tipi di dati con cui stai lavorando, come vuoi utilizzarli, la complessità del tuo processo di acquisizione dati, la tua strategia per la gestione e la governance dei dati, nonché gli strumenti e le competenze presenti nella tua organizzazione.

Oggi le aziende iniziano anche a considerare il valore dei data lake da una prospettiva diversa: un data lake non si limita ad archiviare dati ad alta fedeltà, ma si occupa anche di fornire agli utenti informazioni più approfondite sulle situazioni aziendali, con un contesto più ampio che mai, che consente loro di accelerare gli esperimenti di analisi.

Sviluppato principalmente per gestire grandi volumi di big data, le aziende possono in genere trasferire i dati non elaborati tramite batch e/o flussi in un data lake senza bisogno di trasformarli. Le aziende si affidano ai data lake per contribuire a:

  • Abbassare il costo totale di proprietà
  • Semplificare la gestione dei dati
  • Prepararsi a incorporare l'intelligenza artificiale e il machine learning 
  • Velocizzare l'analisi
  • Migliorare la sicurezza e la governance

 

Casi d'uso di data lake

Poiché i data lake gettano le basi per l'analisi e l'intelligenza artificiale, le aziende di tutti i settori li utilizzano per aumentare le entrate, risparmiare denaro e ridurre i rischi.

Media e intrattenimento

Un'azienda che distribuisce musica, radio e podcast in streaming può aumentare le entrate migliorando il proprio sistema di suggerimenti, in modo che gli utenti consumino di più il loro servizio, così l'azienda è in grado di vendere più annunci.

Telecomunicazioni

Una multinazionale di telecomunicazioni può risparmiare denaro creando modelli di propensione al tasso di abbandono che riducono il tasso di abbandono dei clienti.

Servizi finanziari

Una società di investimenti può fare affidamento sui data lake per supportare il machine learning, in modo da poter gestire i rischi del portafoglio non appena i dati di mercato in tempo reale sono resi accessibili.