Le aziende e le startup tecnologiche stanno scoprendo che, per avere successo:
- I dati devono essere unificati all'interno di tutta l'azienda e anche tra fornitori e partner. Ciò comporta la generazione di valore dai dati non strutturati e l'abbattimento delle barriere organizzative e tecnologiche tra i dati.
- Il loro stack tecnologico deve essere abbastanza flessibile da supportare casi d'uso che vanno dall'analisi dei dati offline al machine learning in tempo reale.
- Lo stack deve inoltre essere accessibile sempre e ovunque. Deve supportare piattaforme, linguaggi di programmazione, strumenti e standard aperti diversi.
Tutti sanno che i dati sono importanti, ma pochissime aziende sono in grado di estrarre insight innovativi relativi ad aziende e clienti dai propri dati. Che cosa significa ottenere il massimo dai tuoi dati? Perché si tratta di una sfida?
Se stai ottenendo il massimo dai tuoi dati, significa che puoi prendere decisioni relative a prodotti e operazioni utilizzando i dati. Devi quindi porti alcune domande. Sai come stanno cambiando le aspettative dei tuoi clienti? Stai utilizzando i dati per migliorare l'esperienza cliente? In termini di sfida, perché non ti chiedi su cosa sono impegnati oggi i tuoi data engineer e data scientist?
I dati hanno un ruolo cruciale per orientare l'innovazione dei prodotti e delle esperienze utente oltre che per favorire decisioni go-to-market di ampio respiro. Sfruttare i dati in modo efficace può offrire un vantaggio competitivo importante. Ecco perché la maggior parte delle aziende e delle startup tecnologiche subisce enormi pressioni per ottenere maggiori risultati: modernizzarsi e operare su scala sempre più vasta, giustificare i costi dei dati attuali e futuri, nonché migliorare la maturità organizzativa e il processo decisionale.
Tuttavia, ci sono difficoltà relative ad accesso, archiviazione, disomogeneità di strumenti, conformità e sicurezza che rendono difficile adottare un approccio più approfondito e sfruttare il valore reale dai dati.
Magari hai ereditato sistemi legacy che stai tentando di far funzionare assieme ai nuovi. I dati devono trovarsi tutti in un unico cloud? Oppure devono essere distribuiti su più cloud? Come puoi modernizzare gli stack di analisi (tradizionalmente integrati verticalmente) per lavorare con piattaforme in grado di scalare orizzontalmente?
O forse stai eseguendo processi di batch o micro-batch dei dati invece di elaborarli in tempo reale. Il sistema di orchestrazione e la pianificazione risultanti aggiungono complessità all'architettura e richiedono manutenzione in merito a contese e resilienza. L'overhead operativo associato alla gestione e alla manutenzione dell'architettura batch è costoso ed è comunque necessario un compromesso per la latenza dei dati.
La mancanza di un facile accesso a tutti i dati e la perdita della possibilità di elaborarli e analizzarli così come vengono ricevuti costituisce uno svantaggio. Uno stack tecnico moderno deve essere uno stack di flussi di dati che rimanga al passo con la quantità dei tuoi dati, utilizzi i dati più recenti disponibili e incorpori e comprenda i dati non strutturati. I team di analisi più avanzati hanno spostato la loro attenzione dalle operazioni all'azione, utilizzando AI/ML per sperimentare e rendere operativi i processi.
Cosa significa "far lavorare i tuoi dati per te"? Significa migliorare l'esperienza dei clienti, trovarne di nuovi e far crescere il fatturato. Ma soprattutto, vuol dire essere capaci di innovare. Consigliamo due principi per la scelta di una piattaforma di dati che ti aiuterà a raggiungere questi risultati.
Principio 1: semplicità e scalabilità
È probabile che al momento tu abbia a disposizione molti dati. Magari stanno crescendo in maniera esponenziale e vuoi mantenere o incrementare il ROI con l'aumentare del volume. Forse sai già quanti dati avrai a disposizione in futuro (ad es. un terabyte) e stai progettando i tuoi sistemi per poterli elaborare, pur sapendo che una crescita superiore alle tue aspettative comporterà una migrazione del sistema su vasta scala. Oppure potresti aver scelto un data warehouse capace di scalare in base alla crescita prevista, ma l'aumento delle esigenze di elaborazione ne complica la gestione.
I sistemi più piccoli sono di solito i più semplici. Tuttavia, non devi più scegliere tra un sistema semplice da utilizzare e un sistema altamente scalabile. L'utilizzo di un'architettura serverless elimina la necessità di gestione dei cluster e ti offre la possibilità di gestire grandi quantità di dati sia per il calcolo che per l'archiviazione, senza doverti preoccupare che le dimensioni dei dati superino di nuovo la capacità tecnica.
Per favorire la semplicità e la scalabilità, consigliamo una piattaforma di dati serverless. Ti suggeriamo di ignorare qualsiasi opzione che richieda l'installazione di software, la gestione dei cluster o l'ottimizzazione delle query.
Principio 2: agilità e contenimento dei costi
Qualsiasi sistema di gestione dei dati che unisce calcolo e archiviazione costringe a fare lo scale up delle capacità di calcolo per gestire l'aumento del volume dei dati, anche quando non serve. Si tratta di un approccio costoso che può portarti a scendere a compromessi, ad esempio ad archiviare soltanto i dati degli ultimi 12 mesi nel tuo data warehouse di analisi. Potresti anche scegliere di non includere alcuni dati perché non rientrano in un caso d'uso immediato, per poi scoprire solo all'ultimo che non puoi testare un'ipotesi perché i dati necessari non sono disponibili e sarebbe necessario avviare una nuova pipeline.
Altri sistemi si posizionano a metà strada: ti permettono di scalare e pagare per il calcolo e l'archiviazione in modo indipendente, ma ti obbligano comunque a configurare, scalare e ottimizzare manualmente i cluster. Per ridurre il più possibile la gestione dell'infrastruttura, valuta un data warehouse multi-cloud serverless che offra affidabilità, prestazioni e protezione dei dati integrata di livello avanzato (come BigQuery).
Oltre ai costi e alla gestione, occorre pensare anche all'agilità. Quando i dati cambiano, quanto tempo impieghi per accorgertene e reagire? Quando è disponibile una nuova versione di un software o di uno strumento che utilizzi, quanto tempo ti serve per iniziare a usufruire delle nuove funzionalità? Il percorso verso una maggiore agilità consiste nello scegliere strumenti flessibili che richiedono meno operazioni manuali e sono applicabili a un'ampia varietà di carichi di lavoro.
Le query su sistemi come Redshift devono essere ottimizzate per essere efficienti. Questo limita la quantità di sperimentazione che puoi svolgere, pertanto potresti estrarre e inserire dati solo quando sospetti che possa esserci un problema. I compromessi che accetti a causa della mancanza di separazione tra calcolo e archiviazione e della necessità di ottimizzare il tuo data warehouse ti pongono in una posizione di svantaggio.
Con uno strumento come BigQuery, non è necessario pianificare in anticipo le query o indicizzare i set di dati. L'archiviazione e il calcolo disaccoppiati ti consentono di ottenere i dati senza preoccuparti dell'aumento dei costi delle query e i tuoi data scientist possono sperimentare senza doversi preoccupare dei cluster o del dimensionamento dei data warehouse per testare nuove idee con query ad hoc.
Abbiamo visto come una piattaforma semplice, scalabile, flessibile ed economica crei le condizioni giuste per innovare. Ora parleremo di come i tuoi dati possono aiutarti a raggiungere questo obiettivo.
La velocità con cui operano le aziende continua ad accelerare. Anche le aspettative dei clienti sono cambiate. Se in passato potevi riconciliare una transazione o approvare un reso in tre giorni, ora devi rispondere subito. Un processo decisionale più rapido e tempestivo porta a una maggiore esigenza di trasmettere flussi di dati.
Hai bisogno di acquisire dati in tempo reale e renderli disponibili per le query a bassa latenza dei tuoi team aziendali. Devi inoltre assicurarti che le tue pipeline in modalità flusso siano scalabili, resilienti e con un overhead di gestione ridotto. Solo così il tuo team può reagire in tempo reale alla velocità del tuo business. Non ti sorprenderà sapere che BigQuery supporta in modo nativo l'importazione di flussi di dati e li rende immediatamente disponibili per l'analisi tramite SQL. Insieme all'API Streaming di BigQuery, facile da usare, Dataflow ti consente di gestire carichi di lavoro stagionali e picchi senza spendere troppo.
Molte organizzazioni finiscono per creare silos perché archiviano separatamente i dati in reparti e unità aziendali e ogni team è proprietario dei propri dati. Ciò significa che ogni volta che vuoi effettuare analisi che interessano vari reparti, devi capire come abbattere questi silos, probabilmente eseguendo pipeline di estrazione (ETL) per ottenere dati e farli arrivare nel tuo data warehouse. Tuttavia, i reparti titolari dei dati sono spesso poco incentivati alla manutenzione delle pipeline. Questo fa sì che, nel tempo, le pipeline non vengano più aggiornate e i dati raccolti diventino più obsoleti e meno utili.
Oltre ai silos organizzativi, molte aziende oggi hanno adottato una strategia multi-cloud basata sulle preferenze dei dipartimenti, sull'allineamento delle capacità e sulla pressione normativa. Queste aziende spesso si confrontano con data lake legacy e investimenti in data warehouse on-premise. La realtà multi-cloud ibrida di oggi richiede un ulteriore livello di sofisticazione nella gestione e nell'accesso ai dati isolati.
Il trasferimento a un data warehouse distribuito con un piano di controllo comune, a volte chiamato data fabric o mesh di dati, aumenta la capacità di accedere a dati di alta qualità nei vari reparti, cloud e sistemi on-premise. In questo modo, è possibile risolvere i problemi aziendali, ad esempio legati al rendimento dei prodotti o al comportamento dei clienti, ed eseguire query immediate sui dati.
BigQuery fornisce i concetti tecnologici di base di questo mesh di dati: gli utenti della tua organizzazione possono gestire, proteggere, condividere e accedere agli asset di dati e agli insight indipendentemente dal proprietario. Ad esempio, puoi ottenere tutti i tuoi dati in BigQuery e offrire funzioni riutilizzabili, visualizzazioni materializzate e persino la possibilità di addestrare modelli ML senza dover spostare i dati. Ciò significa che anche gli esperti di domini non tecnici (oltre a partner e fornitori che dispongono dell'autorizzazione) possono facilmente accedere e utilizzare il linguaggio SQL per eseguire query sui dati con strumenti familiari come fogli di lavoro e dashboard.
L'analogia "hub e spoke" è appropriata in questo caso. BigQuery è l'hub che contiene i dati. Gli spoke includono strumenti di generazione di report, dashboard, modelli di machine learning, applicazioni web, sistemi di suggerimenti e altro ancora, che leggono i dati in tempo reale da BigQuery, senza necessità di copiarli. Looker, ad esempio, ti aiuta a visualizzare i dati e a integrarli nei flussi di lavoro giornalieri degli utenti. Questo approccio ti consente di migliorare contemporaneamente usabilità, sicurezza e qualità dei dati.
In passato, i dati non strutturati e semi-strutturati erano gestiti al meglio dai data lake, mentre quelli strutturati erano più adatti ai data warehouse. Questa separazione ha creato barriere tecnologiche tra i dati che rendevano difficile la transizione tra diversi formati. Dovevi archiviare tutti i tuoi dati in un data lake, più economico e facile da gestire, quindi spostarli in un data warehouse per poter utilizzare gli strumenti di analisi ed estrarre gli insight.
Il sempre più popolare "lakehouse" unisce questi due mondi in un ambiente unificato per tutti i tipi di dati: puoi infatti utilizzare BigQuery sia come data warehouse sia come data lake. L'API Storage di BigQuery consente di accedere direttamente allo spazio di archiviazione per supportare i carichi di lavoro di solito associati ai data lake. La possibilità di archiviare i dati in BigQuery come singola fonte attendibile permette di ridurre il numero di copie da creare e gestire. Puoi invece eseguire l'elaborazione downstream tramite trasformazioni SQL archiviate in viste logiche senza dover spostare i dati.
La facilità d'uso è importante: se ottieni risultati dalle query in 30 secondi anziché in 30 minuti o 3 ore, probabilmente utilizzerai di più i dati nel processo decisionale.
Quanto rapidamente sono in grado di sperimentare i tuoi data scientist? Con ogni probabilità devono interrompere lo sviluppo e rendere operativi i propri modelli per valutare gli esperimenti con utenti reali. Sviluppano ed eseguono l'iterazione di un modello utilizzando dati storici prima di passarlo ai tecnici, che spesso lo riscrivono completamente per incorporarlo nel sistema di produzione ed eseguire test A/B. Quindi attendono, eseguono l'iterazione del proprio modello e lo rimandano in produzione. Questo ciclo prevede molte interruzioni e la riscrittura di gran parte del codice, oltre al coordinamento necessario tra i team che introducono errori nel processo. I tuoi data scientist non sperimentano quanto potrebbero, perché questo processo può richiedere molto tempo. Ciò rende difficile prevedere quanto tempo richieda il completamento di un progetto e se questo avrà successo, per non parlare di quanto tempo servirà perché venga utilizzato in modo routinario. Per superare questo problema, devi fornire ai tuoi data scientist strumenti potenti ma già noti. Vertex AI Workbench consente ai data scientist di lavorare in modo efficace usando i blocchi note Jupyter, ma di ottenere addestramento, sperimentazione e deployment accelerati.
Se ti interessa differenziare in base ai dati, devi estrarre il valore massimo possibile dai dati che stai raccogliendo. Per farlo, i team di data science devono garantire la massima produttività, senza perdere le opportunità di creare modelli perché anche le cose più semplici richiedono troppo tempo o sono troppo complesse.
La qualità dei tuoi modelli predefiniti e a basso utilizzo di codice è fondamentale. AutoML su Vertex AI rende disponibili i migliori modelli di AI per un ambiente senza codice, garantendo benchmarking e assegnazione di priorità rapidi. L'utilizzo di modelli predefiniti come Entity Extraction o Vertex AI Matching Engine sui tuoi dati velocizza in modo significativo la creazione di valore dai dati, senza limitarti più alla semplice classificazione o regressione.
Per mantenere l'agilità dei dati, è fondamentale effettuare esperimenti end-to-end presto e spesso. Vertex AI Pipelines offre una cronologia degli esperimenti che ti consente di guardare indietro, effettuare confronti con i benchmark e gli endpoint ed eseguire test A/B con modelli shadow. Poiché il codice è containerizzato, è possibile utilizzare lo stesso codice su sistemi di sviluppo e produzione diversi. I data scientist lavorano in Python e i tecnici di produzione ricevono container completamente incapsulati. Entrambi i team possono standardizzare rendendo operativi i modelli con Vertex AI Prediction e tu puoi muoverti con rapidità.
Gli esperti di dominio spesso possono usare BigQuery ML per testare la fattibilità di un'idea e addestrare modelli personalizzati utilizzando solo SQL, senza bisogno di ulteriore esperienza con i tradizionali strumenti di data science. Ciò significa che puoi sperimentare in un sistema simile a quello di produzione e condurre studi di fattibilità in pochi giorni anziché mesi. Puoi eseguire il deployment del modello BigQuery ML in Vertex AI per tutti i vantaggi di cui abbiamo appena parlato. Puoi utilizzare Looker per creare modelli dei dati coerenti sulla base di tutti i tuoi dati e utilizzare LookML per eseguire query sui dati, permettendo a tutti nell'organizzazione di creare report e dashboard di facile lettura per esplorare i pattern di dati.
Per generare valore reale in produzione, i sistemi devono essere in grado di importare, elaborare e fornire i dati; inoltre, il machine learning deve promuovere i servizi personalizzati in tempo reale in base al contesto dei clienti. Tuttavia, un'applicazione di produzione in esecuzione continua richiede che il riaddestramento, il deployment e i controlli di sicurezza dei modelli vengano eseguiti di continuo. I dati in entrata richiedono la pre-elaborazione e la convalida per garantire che non ci siano problemi di qualità, seguiti da feature engineering e addestramento dei modelli con ottimizzazione degli iperparametri.
L'integrazione di data science e machine learning è essenziale per orchestrare e gestire facilmente questi flussi di lavoro di ML multifase e per eseguirli ripetutamente e in modo affidabile. Gli strumenti e i flussi di lavoro automatizzati di MLOps consentono la distribuzione continua rapida e semplificano la gestione dei modelli in produzione. A prescindere dal livello di astrazione, esistono un unico flusso di lavoro e un unico vocabolario per tutti i nostri prodotti di AI e puoi facilmente scambiare modelli AutoML e personalizzati poiché sfruttano lo stesso formato e le stesse basi tecniche.
Ad esempio, cosa succede se vuoi applicare il rilevamento di anomalie ai flussi di dati in tempo reale non limitati per contrastare le attività fraudolente? Con il giusto approccio, puoi generare un flusso di dati di esempio per simulare il tipico traffico di rete e importarlo in Pub/Sub; puoi quindi creare e addestrare un modello di rilevamento di anomalie in BigQuery utilizzando il clustering K-means di BigQuery ML dopo aver mascherato le informazioni che consentono l'identificazione personale (PII) con DLP. Infine, si può applicare il modello ai dati in tempo reale per il rilevamento in tempo reale con Dataflow e utilizzare Looker per creare una dashboard, avvisi e azioni per gestire gli eventi identificati.
Abbiamo parlato di BigQuery e Redshift, che tuttavia non sono le uniche opzioni di data warehouse disponibili. Esistono altri prodotti di analisi dei dati, come Snowflake e Databricks, che funzionano per tutti e tre i cloud principali. Ma se scegli BigQuery, i vincoli al cloud provider sono un problema?
La prima cosa di cui tenere conto è che BigQuery non ti limita all'analisi dei soli dati archiviati in Google Cloud. BigQuery Omni ti offre la possibilità di eseguire agevolmente query sui tuoi dati in Amazon S3 e Archiviazione BLOB di Azure dalla console Google Cloud.
Tuttavia, se utilizzi Snowflake o Databricks, i costi del passaggio da AWS a Google Cloud o viceversa sono inferiori. Quali sono invece i costi del passaggio a un altro data warehouse? E se volessi passare da Snowflake a BigQuery o da Databricks a EMR? Il passaggio prevede comunque un costo, ma lo scenario è diverso.
Dato che qualsiasi situazione prevede costi per il passaggio, devi scegliere lo strumento o la piattaforma più adatti alle tue esigenze nel lungo termine. La scelta avviene in base alle funzionalità distintive di una determinata piattaforma, al suo costo attuale e alla frequenza dell'introduzione di innovazioni in futuro. Quando scegli Snowflake, punti sul fatto che una società incentrata sul data warehousing offrirà innovazioni più rapide in quel settore. Quando scegli BigQuery, fai affidamento su un'azienda nota per aver introdotto molte tecnologie di dati e AI per continuare a innovare l'intera piattaforma.
Riteniamo che una piattaforma innovativa e ben integrata favorisca l'effetto volano dell'innovazione. Un'offerta di servizi gestiti che, come Google Kubernetes Engine (GKE), velocizza il caricamento delle immagini container contribuisce a migliorare il funzionamento di Spark serverless e il fatto che Spark serverless possa operare sui dati in BigQuery rende BigQuery più prezioso per te. Il volano agisce più velocemente quando scommetti su una piattaforma anziché su singoli prodotti.
Se stai eseguendo la migrazione da un cloud a un altro, è probabile che il processo sia più semplice rispetto alla migrazione da un ambiente on-premise al cloud, perché di solito la tecnologia on-premise è molto più radicata. Concentrati sull'obiettivo, che spesso può essere riassunto nella domanda "Quanto posso innovare?".
Pensa a tutte le attività innovative che vorresti intraprendere ma non stai svolgendo oggi, quindi configura nuovi progetti e trasferisci i dati di cui hai bisogno per realizzarli. Possiamo aiutarti a creare questi nuovi casi d'uso e ad eseguire il mirroring delle origini dati di cui hai bisogno. Per un po' di tempo, ti troverai in un ambiente ibrido in cui molti casi d'uso vengono eseguiti on-premise, ma sono basati su dati di cui viene eseguito il mirroring in tempo reale oppure in batch dal tuo ambiente on-premise o presso l'altro tuo cloud provider.
La seconda considerazione riguarda i costi. Guarda le costose istanze di Teradata che stai eseguendo. Con la transizione a BigQuery, vediamo i clienti che dimezzano i costi e queste migrazioni sono molto più semplici di quanto non fosse in passato grazie agli strumenti di valutazione automatici e ai transpiler SQL automatizzati che convertono la maggioranza dei tuoi script. Abbiamo la possibilità di virtualizzare le cose in modo che i tuoi clienti pensino di parlare con Teradata quando in effetti parlano con BigQuery. Esistono molti modi in cui possiamo aiutarti a eseguire la migrazione senza dover fermare tutto; puoi utilizzare questi strumenti di migrazione per abbandonare i tuoi costosi carichi di lavoro Teradata e Hadoop.
La terza considerazione riguarda l'analisi dei tuoi sistemi ERP, come SAP, i sistemi Salesforce e Oracle. Se vuoi ottimizzare la catena di fornitura, eseguire la valutazione dei lead o rilevare attività fraudolente, è importante poter collegare i tuoi carichi di lavoro di analisi ai sistemi ERP. Esistono connettori di terze parti che possiamo utilizzare per ottenere dati da questi sistemi, che possiamo poi utilizzare per creare casi d'uso moderni basati sull'AI su questi dati nel cloud.
L'ordine in cui esegui queste operazioni dipende dalla tua situazione specifica. Una startup potrebbe iniziare con l'innovazione, passare all'ottimizzazione dei costi e infine sfruttare le pipeline e i connettori esistenti. Se la tua attività dipende in maniera significativa dalle catene di fornitura, potresti iniziare con i connettori ERP. A prescindere dall'ordine in cui esegui queste tre attività, scoprirai di aver spostato una quantità considerevole del tuo importante patrimonio di dati nel cloud. A questo punto, guarda cos'è rimasto e valuta se vale la pena spostarlo. Spesso la risposta è no: una volta trasferito il 70-80% dei carichi di lavoro davvero necessari, devi iniziare a prendere le decisioni difficili. Vale la pena eseguire la migrazione del restante 20-30% oppure dovresti valutare di riscrivere il codice o eseguire l'attività in modo diverso? Non è il caso di spostare tutti i contenuti nel cloud così come sono, perché ti ritroverai a replicare l'intero debito tecnologico on-premise nel nuovo ambiente cloud, anziché concentrarti sul valore dei dati.
Abbiamo parlato molto di come sfruttare i dati e di cosa ciò significhi davvero, oltre ad aver condiviso alcune considerazioni che potresti dover tenere presenti durante la migrazione a un data warehouse nel cloud.
Contattaci per scoprire di più su come Google Cloud può aiutarti a sfruttare gli insight per ottenere un vantaggio significativo, aiutare la tua azienda a ridurre i costi e aumentare la produttività ottimizzando l'utilizzo dei dati e dell'AI.
Risorse aggiuntive