Vai a

Il futuro dei dati sarà unificato, flessibile e accessibile

Le aziende e le startup tecnologiche stanno scoprendo che, per avere successo:

- I dati devono essere unificati all'interno di tutta l'azienda e anche tra fornitori e partner. Ciò comporta la generazione di valore dai dati non strutturati e l'abbattimento delle barriere organizzative e tecnologiche tra i dati.

- Il loro stack tecnologico deve essere abbastanza flessibile da supportare casi d'uso che vanno dall'analisi dei dati offline al machine learning in tempo reale.

- Lo stack deve inoltre essere accessibile sempre e ovunque. Deve supportare piattaforme, linguaggi di programmazione, strumenti e standard aperti diversi.

Perché lo sfruttamento ottimale dei dati può costituire un vantaggio competitivo

Tutti sanno che i dati sono importanti, ma pochissime aziende sono in grado di estrarre approfondimenti innovativi relativi ad aziende e clienti dai propri dati. Che cosa significa ottenere il massimo dai tuoi dati? Perché si tratta di una sfida?

Se stai ottenendo il massimo dai tuoi dati, significa che puoi prendere decisioni relative a prodotti e operazioni utilizzando i dati. Poniti alcune domande. Sai come cambiano le aspettative dei tuoi clienti? Stai utilizzando i dati per migliorare l'esperienza cliente? In termini di sfida, sai dove trascorrono oggi il tempo il tuo data engineer e i tuoi data scientist?

I dati hanno un ruolo cruciale per promuovere la direzione innovativa dei prodotti e le esperienze utente oltre a decisioni go-to-market di ampio respiro. Sfruttare i dati in modo efficace può offrire un vantaggio competitivo significativo. Ecco perché la maggior parte delle aziende e delle startup tecnologiche sono spinte a ottenere maggiori risultati: modernizzare e operare su scala sempre più larga, giustificare i costi dei dati attuali e futuri ed elevare la maturità e il processo decisionale aziendale.

Tuttavia, ci sono difficoltà relative ad accesso, archiviazione, incoerenza degli strumenti, conformità e sicurezza che rendono difficile adottare un approccio più approfondito e sfruttare il valore reale dai dati. 

Magari hai ereditato sistemi legacy che stai tentando di far funzionare assieme ai nuovi. I dati devono trovarsi tutti in un unico cloud? Oppure devono essere distribuiti su più cloud? Come puoi modernizzare gli stack di analisi (tradizionalmente integrati verticalmente) per lavorare con piattaforme in grado di scalare orizzontalmente?

Magari stai eseguendo processi di batch o micro-batch dei dati invece di elaborarli in tempo reale. Il sistema di orchestrazione e la pianificazione risultanti aggiungono complessità all'architettura e richiedono manutenzione in merito a contese e resilienza. L'overhead operativo associato alla gestione e alla manutenzione dell'architettura batch è costoso e, al tempo stesso, la latenza dei dati continua a essere compromessa.

La mancanza di un facile accesso a tutti i dati e la perdita della possibilità di elaborarli e analizzarli così come vengono ricevuti costituisce uno svantaggio. Uno stack tecnico moderno deve essere uno stack di flussi di dati che rimanga al passo con la scalabilità dei tuoi dati, utilizzi i dati più recenti disponibili e incorpori e comprenda i dati non strutturati. I team di analisi più avanzati hanno spostato il loro orientamento dalle operazioni all'azione, utilizzando AI/ML per sperimentare e rendere operativi i processi.

Come ottenere valore dai dati, così da poterti concentrare sull'innovazione

Cosa significa per te "ottenere valore dai dati"? Vuol dire migliorare l'esperienza cliente, raggiungerne di nuovi e aumentare la qualità. Ma soprattutto, consente di innovare. Consigliamo due principi per la scelta di una piattaforma di dati che ti aiuterà a raggiungere questi risultati.

Principio 1: semplicità e scalabilità

È probabile che al momento tu abbia a disposizione molti dati. Magari stanno crescendo in maniera esponenziale e vuoi mantenere o incrementare il ROI con l'aumentare del volume. Magari prevedi la quantità di dati che avrai in futuro (ad es. un terabyte) e stai progettando i tuoi sistemi per poterla elaborare, sapendo che se la crescita supererà queste aspettative, ti aspetta una migrazione del sistema su vasta scala. O magari hai scelto un data warehouse in grado di scalare in base alla crescita prevista, ma l'aumento delle esigenze di elaborazione rende complessa la gestione.

I sistemi più piccoli sono di solito i più semplici. Tuttavia, non devi più scegliere tra un sistema semplice da utilizzare e un sistema altamente scalabile. L'utilizzo di un'architettura serverless elimina la necessità di gestione dei cluster e ti offre la possibilità di ottenere un'ampia scalabilità sia per il calcolo che per l'archiviazione, senza doverti preoccupare che le dimensioni dei dati superino di nuovo la capacità tecnica.

Per favorire la semplicità e la scalabilità, consigliamo una piattaforma di dati serverless. Ti suggeriamo di ignorare qualsiasi opzione che richieda l'installazione di software, la gestione dei cluster o l'ottimizzazione delle query.

Principio 2: agilità e contenimento dei costi

Qualsiasi sistema di gestione dei dati che unisce calcolo e archiviazione costringe a fare lo scale up delle capacità di calcolo per gestire l'aumento del volume dei dati, anche quando non serve. Si tratta di un approccio costoso che può portarti a scendere a compromessi, ad esempio ad archiviare soltanto i dati degli ultimi 12 mesi nel tuo data warehouse di analisi. Potresti anche scegliere di non includere alcuni dati perché non disponi di un caso d'uso immediato, per poi scoprire che non puoi testare un'ipotesi perché i dati non sono disponibili e sarebbe richiesta una nuova pipeline per iniziare.

Altri sistemi sono in grado di arrivare a metà strada, permettendoti di scalare e pagare per il calcolo e l'archiviazione in modo indipendente, pur continuando a configurare, scalare e ottimizzare manualmente i cluster. Per ridurre il più possibile la gestione dell'infrastruttura, valuta un data warehouse multi-cloud serverless con elevati avanzati di affidabilità, prestazioni e protezione dei dati integrata (come BigQuery).

Oltre ai costi e alla gestione, occorre pensare anche all'agilità. Quando cambiano i dati, quanto tempo impieghi per accorgertene e reagire? Quando è disponibile una nuova versione di un software o di uno strumento che utilizzi, quanto tempo ti serve per iniziare a usufruire di queste nuove funzionalità? Il percorso verso una maggiore agilità consiste nello scegliere strumenti flessibili che richiedono meno operazioni manuali e sono applicabili a un'ampia varietà di carichi di lavoro.

Le query su sistemi come Redshift devono essere ottimizzate per essere efficienti. Questo limita la quantità di sperimentazione che puoi svolgere, pertanto potresti estrarre e inserire dati solo quando sospetti che possa esserci un problema. I compromessi a cui scendi a causa della mancanza di separazione tra calcolo e archiviazione e della necessità di ottimizzare il tuo data warehouse ti pongono in una posizione di svantaggio.

Con uno strumento come BigQuery, non è necessario pianificare in anticipo le query o indicizzare i set di dati. L'archiviazione e il calcolo disaccoppiati ti consentono di ottenere i dati senza preoccuparti dell'aumento dei costi delle query e i tuoi data scientist possono sperimentare senza dover pensare ai cluster o dimensionare i loro data warehouse per testare nuove idee attraverso query ad hoc.

Abbiamo esaminato il modo in cui una piattaforma semplice, scalabile, flessibile ed economica ti consente di innovare. Ora parleremo di come i tuoi dati possono aiutarti a raggiungere questo obiettivo.

Prendi decisioni basate sui dati in tempo reale

La velocità con cui operano le aziende continua ad accelerare. Anche le aspettative dei clienti sono cambiate. Se in passato potevi riconciliare una transazione o approvare un reso in tre giorni, ora devi rispondere subito. Un processo decisionale più rapido e tempestivo porta a una maggiore esigenza di trasmettere flussi di dati.

Vuoi poter acquisire dati in tempo reale e renderli disponibili per le query a bassa latenza da parte dei tuoi team aziendali. Vuoi inoltre assicurarti che le tue pipeline in modalità flusso siano scalabili, resilienti e con un overhead di gestione ridotto. Questo è l'unico modo in cui il tuo team può reagire in tempo reale alla velocità del tuo business. Non ti sorprenderà sapere che BigQuery supporta in modo nativo l'importazione di flussi di dati e li rende immediatamente disponibili per l'analisi tramite SQL. Insieme all'API Streaming di facile utilizzo di BigQuery, Dataflow ti consente di gestire carichi di lavoro stagionali e picchi senza spendere troppo.

Abbatti le barriere tra i dati

Molte organizzazioni finiscono per creare silos perché archiviano separatamente i dati tra reparti e unità aziendali e ogni team è proprietario dei propri dati. Ciò significa che ogni volta che vuoi effettuare analisi che interessano vari reparti, devi capire come suddividere questi silos, probabilmente eseguendo pipeline di estrazione (ETL) per ottenere dati e farli arrivare nel tuo data warehouse. Tuttavia, i reparti che possiedono i dati spesso hanno scarsi incentivi per la manutenzione delle pipeline; nel corso del tempo, non vengono aggiornate e i dati raccolti diventano più obsoleti e meno utili.

Oltre ai silos organizzativi, molte aziende oggi hanno adottato una strategia multi-cloud basata sulle preferenze dei dipartimenti, sull'allineamento delle capacità e sulla pressione normativa. Queste aziende spesso si confrontano con data lake legacy e investimenti nei data warehouse on-premise. La realtà multi-cloud ibrida di oggi richiede un ulteriore livello di sofisticazione nella gestione e nell'accesso ai dati isolati.

Il trasferimento a un data warehouse distribuito con un piano di controllo comune, a volte chiamato data fabric o mesh di dati, aumenta la capacità di accedere a dati di alta qualità tra reparti, cloud e sistemi on-premise. In questo modo, è possibile risolvere i problemi aziendali, ad esempio legati al rendimento dei prodotti o al comportamento dei clienti, ed eseguire query immediate sui dati.

BigQuery fornisce i concetti tecnologici di base di questo mesh di dati: gli utenti della tua organizzazione possono gestire, proteggere, accedere e condividere gli asset e gli insight dei dati indipendentemente dal proprietario. Ad esempio, puoi ottenere tutti i tuoi dati in BigQuery e offrire funzioni riutilizzabili, visualizzazioni materializzate e persino la possibilità di addestrare modelli ML senza dover spostare i dati. Ciò significa che anche gli esperti di dominio non tecnici (oltre a partner e fornitori che dispongono dell'autorizzazione) possono accedere e utilizzare facilmente SQL per eseguire query sui dati con strumenti familiari come fogli di lavoro e dashboard.

L'analogia "hub e spoke" è appropriata in questo caso. BigQuery è l'hub che contiene i dati. Gli spoke includono strumenti di generazione di report, dashboard, modelli di machine learning, applicazioni web, sistemi di suggerimenti e altro ancora, tutti in lettura dati in tempo reale da BigQuery, senza necessità di copiarli. Looker, ad esempio, ti aiuta a visualizzare i dati e a integrarli nei flussi di lavoro giornalieri degli utenti. Questo approccio ti consente di migliorare contemporaneamente usabilità, sicurezza e qualità dei dati.

Semplifica l'accesso a tutti i tuoi dati

In passato, i dati non strutturati e semi-strutturati erano gestiti meglio dai data lake, mentre quelli strutturati erano più adatti ai data warehouse. Questa separazione ha creato barriere tecnologiche tra i dati che rendevano difficile la transizione del formato. Dovevi archiviare tutti i tuoi dati in un data lake, dato che era più economico e facile da gestire, quindi spostarli in un data warehouse per poter utilizzare gli strumenti di analisi per estrarre gli insight.

Le sempre più popolari "lakehouse" uniscono questi due mondi in un ambiente unificato per tutti i tipi di dati; puoi utilizzare BigQuery sia come data warehouse sia come data lake. L'API Storage di BigQuery consente di accedere direttamente all'archiviazione per alimentare i carichi di lavoro di solito associati ai data lake. Poiché i dati possono essere archiviati in BigQuery come unica fonte attendibile, risulta necessario creare e gestire meno copie. Puoi invece eseguire l'elaborazione downstream tramite trasformazioni SQL archiviate in visualizzazioni logiche senza dover spostare i dati.

La facilità d'uso è importante: se ottieni risultati dalle query in 30 secondi anziché in 30 minuti o 3 ore, probabilmente utilizzerai di più i dati nel processo decisionale.

Utilizza AI/ML per sperimentare più rapidamente e rendere operativi i carichi di lavoro

Quanto rapidamente sono in grado di sperimentare i tuoi data scientist? Con ogni probabilità devono interrompere lo sviluppo e rendere operativi i propri modelli per valutare gli esperimenti con utenti reali. Sviluppano ed eseguono l'iterazione di un modello utilizzando dati storici prima di passarlo ai tecnici, che spesso lo riscrivono completamente per incorporarlo nel sistema di produzione ed eseguire test A/B. Questi ultimi quindi attendono, eseguono l'iterazione del proprio modello e lo producono di nuovo. Questo ciclo prevede molte interruzioni e la riscrittura di gran parte del codice, oltre al coordinamento necessario tra i team che introducono errori nel processo. I tuoi data scientist non sperimentano quanto potrebbero, perché può volerci molto tempo per farlo in questo modo. Ciò rende difficile prevedere quanto tempo è necessario per completare un progetto e se questo avrà successo, per non parlare del tempo impiegato per renderlo uno strumento di routine. Per superare questo problema, devi fornire ai tuoi data scientist strumenti potenti ma familiari. Vertex AI Workbench consente ai data scientist di lavorare in modo efficace nei blocchi note Jupyter, ma di ottenere un addestramento, una sperimentazione e un deployment rapidi.

Se ti interessa differenziare in base ai dati, devi estrarre il valore massimo possibile dai dati che stai raccogliendo. Per farlo, i tuoi team di data science devono essere il più produttivi possibile e non perdere nessuna opportunità di creare un modello perché anche le cose semplici richiedono troppo tempo o sono troppo complesse. 

La qualità dei tuoi modelli predefiniti e a basso codice è fondamentale. AutoML su Vertex AI rende disponibili i migliori modelli di AI nel contesto di un ambiente senza codice, garantendo benchmarking e assegnazione di priorità rapidi. L'utilizzo di modelli predefiniti come Entity Extraction o Vertex AI Matching Engine sui tuoi dati velocizza in modo significativo la creazione di valore dai dati, senza limitarti più alla semplice classificazione o regressione.

Per mantenere l'agilità dei dati, è fondamentale effettuare esperimenti end-to-end presto e spesso. Vertex AI Pipelines offre una cronologia degli esperimenti che ti consente di tornare indietro, effettuare confronti con i benchmark e gli endpoint ed eseguire test A/B con modelli shadow. Poiché il codice è containerizzato, è possibile utilizzare lo stesso codice tra i sistemi di sviluppo e produzione. I data scientist lavorano in Python e i tecnici di produzione ricevono container completamente incapsulati. Entrambi i team possono standardizzare rendendo operativi i modelli con Vertex AI Prediction e tu puoi muoverti con rapidità.

Gli esperti di dominio spesso possono usare BigQuery ML per testare la fattibilità di un'idea addestrando modelli personalizzati utilizzando solo SQL senza bisogno di ulteriore esperienza con i tradizionali strumenti di data science. Ciò significa che puoi sperimentare in un sistema simile a quello di produzione e condurre studi di fattibilità in pochi giorni anziché mesi. Il modello BigQuery ML può essere implementato in Vertex AI per tutti i vantaggi di cui abbiamo appena parlato. Puoi utilizzare Looker per creare modelli di dati coerenti sulla base di tutti i tuoi dati e utilizzare LookML per eseguire query sui dati, permettendo a tutti gli utenti dell'organizzazione di creare report e dashboard di facile lettura per esplorare i pattern di dati.

Per generare valore reale in produzione, i sistemi devono essere in grado di importare, elaborare e pubblicare i dati; inoltre, il machine learning deve promuovere i servizi personalizzati in tempo reale in base al contesto dei clienti. Tuttavia, un'applicazione di produzione in esecuzione continua richiede che il riaddestramento, il deployment e i controlli di sicurezza dei modelli vengano eseguiti di continuo. I dati in entrata richiedono la pre-elaborazione e la convalida per garantire che non ci siano problemi di qualità, seguiti da feature engineering e addestramento dei modelli con ottimizzazione degli iperparametri.

L'integrazione di data science e machine learning è essenziale per orchestrare e gestire facilmente questi flussi di lavoro di ML multifase e per eseguirli in modo affidabile e ripetuto. Gli strumenti e i flussi di lavoro automatizzati di MLOps consentono la distribuzione continua rapida e semplificano la gestione dei modelli in produzione. A prescindere dal livello di astrazione, esistono un unico flusso di lavoro e vocabolario per tutti i nostri prodotti di AI e puoi facilmente scambiare modelli AutoML e personalizzati poiché sfruttano lo stesso formato e le stesse basi tecniche.

Ad esempio, cosa succede se vuoi applicare il rilevamento di anomalie ai flussi di dati in tempo reale non limitati per contrastare le attività fraudolente? Con il giusto approccio, generi un flusso di dati di esempio per simulare il tipico traffico di rete e importarlo in Pub/Sub, quindi crei e addestri un modello di rilevamento di anomalie in BigQuery utilizzando il clustering K-means di BigQuery ML dopo aver mascherato le informazioni che consentono l'identificazione personale (PII) con DLP. Poi applichi il modello ai dati in tempo reale per il rilevamento in tempo reale con Dataflow e utilizzi Looker per creare una dashboard, avvisi e azioni per gestire gli eventi identificati.

Perché è importante scegliere un'opzione di data warehouse completa

Abbiamo parlato di BigQuery e Redshift, che tuttavia non sono le uniche opzioni di data warehouse disponibili. Esistono altri prodotti di analisi dei dati, come Snowflake e Databricks, che funzionano per tutti e tre i cloud principali. Ma se scegli BigQuery, i vincoli al cloud provider sono un problema?

La prima cosa di cui tenere conto è che BigQuery non ti limita all'analisi dei soli dati archiviati in Google Cloud. BigQuery Omni ti offre la possibilità di eseguire agevolmente query sui tuoi dati in Amazon S3 e Azure Blob Storage dalla console Google Cloud.

Tuttavia, se utilizzi Snowflake o Databricks, i costi del passaggio da AWS a Google Cloud (o viceversa) sono inferiori. Quali sono invece i costi del passaggio a un altro data warehouse? E se volessi passare da Snowflake a BigQuery o da Databricks a EMR? Il passaggio prevede comunque un costo, ma lo scenario è diverso.

Dato che qualsiasi situazione prevede costi per il passaggio, devi scegliere lo strumento o la piattaforma più adatti alla tua situazione sul lungo termine. La scelta avviene in base alle caratteristiche uniche di una determinata piattaforma, al suo costo odierno e alla frequenza con cui aggiungerà innovazioni in futuro. Quando scegli Snowflake, punti sul fatto che una società incentrata sul data warehousing offrirà innovazioni più rapide in quel settore. Quando scegli BigQuery, conti che un'azienda nota per aver inventato molte tecnologie di dati e AI continui a innovare l'intera piattaforma.

Riteniamo che una piattaforma innovativa e ben integrata supporti meglio l'effetto volano dell'innovazione. Quando un'offerta di servizi gestiti, ad esempio Google Kubernetes Engine (GKE) velocizza il caricamento delle immagini container, aiuta Spark serverless a funzionare meglio e, dato che Spark serverless può operare sui dati in BigQuery, rende BigQuery più importante per te. Il volano ruota più velocemente quando scommetti su una piattaforma anziché su singoli prodotti.

Come affrontare il percorso di migrazione dei dati in tutta sicurezza

Quanto tempo richiederà la migrazione dei dati? Sei mesi? Due anni? Qual è l'impegno richiesto e ne vale la pena?

Se stai eseguendo la migrazione da un cloud a un altro, è probabile che il processo sia più semplice rispetto alla migrazione da un ambiente on-premise al cloud, perché di solito la tecnologia on-premise è molto più radicata. Concentrati sull'obiettivo, che spesso può essere riassunto nella domanda "Quanto posso innovare?".

Pensa a tutte le attività innovative che vuoi svolgere e che non stai eseguendo oggi, quindi configura nuovi progetti e trasferisci i dati di cui hai bisogno per realizzarli. Possiamo aiutarti a creare questi nuovi casi d'uso e rispecchiare le origini dati di cui hai bisogno. Per un po' di tempo, ti troverai in un ambiente ibrido in cui molti casi d'uso vengono eseguiti on-premise, ma sono basati su dati di cui viene eseguito il mirroring in tempo reale oppure in batch dal tuo ambiente on-premise o presso l'altro tuo cloud provider.

La seconda considerazione riguarda i costi. Guarda le costose istanze di Teradata che stai eseguendo. Con la transizione a BigQuery, vediamo i clienti che dimezzano i costi e queste migrazioni sono molto più semplici di quanto non fosse in passato grazie agli strumenti di valutazione automatici e ai transpiler SQL automatizzati che convertono la maggioranza dei tuoi script. Abbiamo la possibilità di virtualizzare le cose in modo che i tuoi clienti pensino di parlare con Teradata quando in effetti parlano con BigQuery. Esistono molti modi in cui possiamo aiutarti a eseguire la migrazione senza dover fermare tutto; puoi utilizzare questi strumenti per la migrazione per abbandonare i tuoi costosi carichi di lavoro Teradata e Hadoop. 

La terza considerazione riguarda l'analisi dei tuoi sistemi ERP, come SAP, i sistemi Salesforce e Oracle. Se vuoi ottimizzare la catena di fornitura, eseguire la valutazione dei lead o rilevare attività fraudolente, è importante poter collegare i tuoi carichi di lavoro di analisi ai sistemi ERP. Esistono connettori di terze parti che possiamo utilizzare per ottenere dati da questi sistemi, che possiamo poi utilizzare per creare casi d'uso moderni basati sull'AI su questi dati nel cloud.

L'ordine in cui esegui queste operazioni dipende dalla tua situazione specifica. Una startup potrebbe iniziare con l'innovazione, passare all'ottimizzazione dei costi e infine sfruttare le pipeline e i connettori esistenti. Se la tua attività dipende in maniera significativa dalle catene di fornitura, potresti iniziare con i connettori ERP. A prescindere dall'ordine in cui esegui queste tre attività, scoprirai di aver spostato una quantità considerevole del tuo importante patrimonio di dati nel cloud. A questo punto, guarda cos'è rimasto e valuta se vale la pena spostarlo. Spesso la risposta è no: una volta trasferito il 70-80% dei carichi di lavoro davvero necessari, devi iniziare a prendere le decisioni difficili. Vale la pena eseguire la migrazione del restante 20-30% oppure dovresti valutare di riscrivere il codice o eseguire l'attività in modo diverso? Evita di entrare in modalità di spostamento di tutti i contenuti nel cloud così come sono, perché ti ritroverai a replicare l'intero debito tecnologico on-premise nel nuovo ambiente cloud, anziché concentrarti sul valore dei dati.

Per approfondire

Abbiamo parlato molto di come sfruttare i dati e di cosa ciò significhi davvero, oltre ad aver condiviso alcune considerazioni che potresti dover affrontare durante la migrazione a un data warehouse nel cloud.

Contattaci per scoprire di più su come Google Cloud può aiutarti a sfruttare gli insight per ottenere un vantaggio significativo, aiutare la tua azienda a ridurre i costi e aumentare la produttività ottimizzando l'utilizzo dei dati e dell'AI.

Risorse aggiuntive

Passaggi successivi

Scopri di più su come Google Cloud può aiutarti a ottimizzare l'utilizzo di dati e AI.
Parla con un esperto
Google Cloud Next '21: Data Cloud: trasforma con una piattaforma di dati universale.
Guarda il webinar

Compila il modulo e ti contatteremo. Visualizza modulo