Che cos'è un workload di AI?

Un workload di AI è l'insieme di attività e processi computazionali che alimentano i sistemi di intelligenza artificiale o machine learning (ML). Pensa al computing intensivo necessario a un'applicazione di AI per apprendere, fare previsioni o generare nuovi contenuti. Questi workload possono essere essenziali per i professionisti che creano l'AI, poiché comprendono le fasi chiave che guidano i sistemi di machine learning: preparazione dei dati, addestramento del modello, inferenza e monitoraggio.

Opzioni di orchestrazione dei workload di AI

Tipi di workload di AI

I workload di AI e ML possono essere ampiamente suddivisi in due modi

Comprendere questi tipi aiuta i responsabili delle decisioni tecniche a pianificare l'infrastruttura specifica, la potenza di calcolo e le strategie di orchestrazione che ognuno richiede.

Tipo di workload AI

Funzione principale nel ciclo di vita dell'AI

Focus computazionale richiesto

Preparazione dei dati


Pulizia, trasformazione e formattazione dei dati non elaborati in uno stato pronto per il modello.

Elaborazione con utilizzo intensivo di I/O (input/output) e CPU per la manipolazione dei dati.

Addestramento del modello

Utilizzo di dati preparati per insegnare al modello di AI, regolando in modo iterativo i suoi parametri per ottenere accuratezza.

Potenza di calcolo estrema (GPU/TPU), memoria elevata ed elaborazione parallela.

Inferenza del modello

Eseguire il deployment del modello addestrato per fare previsioni in tempo reale o generare output su nuovi dati.

Bassa latenza e velocità effettiva elevata, che spesso richiedono hardware edge o cloud specializzato.

Generative AI

Creazione di nuovi contenuti, come testo, immagini o codice, utilizzando foundation model di grandi dimensioni.

Inferenza e ottimizzazione su larga scala, che richiedono GPU/TPU di fascia alta.

Visione artificiale


Consentire alle macchine di interpretare e agire sui dati visivi come immagini e video.

Throughput di dati a volume elevato e accelerazione specializzata del deep learning.

Elaborazione del linguaggio naturale (NLP, Natural Language Processing)

Elaborazione e comprensione del linguaggio umano per attività come la traduzione e il riepilogo.

Una combinazione di addestramento accelerato da GPU ed erogazione a bassa latenza per applicazioni in tempo reale.

Tipo di workload AI

Funzione principale nel ciclo di vita dell'AI

Focus computazionale richiesto

Preparazione dei dati


Pulizia, trasformazione e formattazione dei dati non elaborati in uno stato pronto per il modello.

Elaborazione con utilizzo intensivo di I/O (input/output) e CPU per la manipolazione dei dati.

Addestramento del modello

Utilizzo di dati preparati per insegnare al modello di AI, regolando in modo iterativo i suoi parametri per ottenere accuratezza.

Potenza di calcolo estrema (GPU/TPU), memoria elevata ed elaborazione parallela.

Inferenza del modello

Eseguire il deployment del modello addestrato per fare previsioni in tempo reale o generare output su nuovi dati.

Bassa latenza e velocità effettiva elevata, che spesso richiedono hardware edge o cloud specializzato.

Generative AI

Creazione di nuovi contenuti, come testo, immagini o codice, utilizzando foundation model di grandi dimensioni.

Inferenza e ottimizzazione su larga scala, che richiedono GPU/TPU di fascia alta.

Visione artificiale


Consentire alle macchine di interpretare e agire sui dati visivi come immagini e video.

Throughput di dati a volume elevato e accelerazione specializzata del deep learning.

Elaborazione del linguaggio naturale (NLP, Natural Language Processing)

Elaborazione e comprensione del linguaggio umano per attività come la traduzione e il riepilogo.

Una combinazione di addestramento accelerato da GPU ed erogazione a bassa latenza per applicazioni in tempo reale.

Domande frequenti sui workload di AI

I carichi di lavoro di AI sono caratterizzati principalmente dall'essere ad alta intensità di dati, dall'elaborazione di set di dati massicci, spesso non strutturati, e ad alta intensità di calcolo, che richiedono hardware di elaborazione parallela specializzato come le GPU per l'addestramento. I carichi di lavoro tradizionali, come i database relazionali o i semplici server web, sono più incentrati sulla velocità effettiva transazionale coerente e sono in genere ottimizzati per le architetture CPU standard.

Scegli i carichi di lavoro di addestramento quando devi creare un nuovo modello o migliorare in modo significativo uno esistente fornendogli nuovi dati, il che può richiedere costi elevati e grande potenza di calcolo.

Utilizzi i carichi di lavoro di inferenza quando il modello è pronto ed è stato distribuito in produzione e devi fare previsioni in tempo reale o in batch, che danno priorità alla bassa latenza e alla velocità effettiva elevata a un costo inferiore per transazione.

Le sfide più grandi in genere riguardano l'orchestrazione, ovvero il coordinamento efficiente di grandi cluster di GPU e TPU; la gestione dei dati, ovvero la garanzia di un accesso rapido e affidabile a petabyte di dati; e il controllo dei costi, ovvero la gestione del consumo di risorse di calcolo costose per evitare spese eccessive per un'infrastruttura inattiva.

Le tendenze emergenti includono l'utilizzo di piattaforme serverless con supporto GPU per astrarre la gestione dell'infrastruttura, l'adozione dell'orchestrazione multicloud per un utilizzo flessibile delle risorse e lo sfruttamento di modelli di base che richiedono meno addestramento da zero e si concentrano maggiormente sulla ottimizzazione e sulla distribuzione efficiente.

Casi d'uso comuni per i workload di AI

I carichi di lavoro di AI sono al centro della trasformazione digitale, fornendo applicazioni reali e di grande impatto in quasi tutti i settori, trasformando i dati in valore pratico.

Customer experience personalizzate

I workload di AI possono alimentare motori di suggerimenti per aziende di vendita al dettaglio, e-commerce e media. Ad esempio, una società di streaming utilizza un sofisticato modello di ML, addestrato su miliardi di abitudini di visione, per fornire suggerimenti di contenuti altamente personalizzati.

Manutenzione predittiva nella produzione

I produttori distribuiscono sensori su apparecchiature critiche, generando enormi quantità di dati di serie temporali. I carichi di lavoro di AI possono analizzare continuamente questi dati per prevedere guasti meccanici con giorni o settimane di anticipo, consentendo una manutenzione programmata.

Rilevamento delle frodi e analisi del rischio finanziario

Gli istituti finanziari utilizzano i carichi di lavoro di machine learning per analizzare milioni di transazioni in tempo reale. Questi modelli possono identificare pattern indicativi di frode, con alcuni sistemi che rilevano transazioni non autorizzate con un alto grado di accuratezza e un basso tasso di falsi positivi.

Diagnostica per immagini in ambito sanitario

I carichi di lavoro di computer vision vengono utilizzati per analizzare immagini mediche come radiografie, TAC e risonanze magnetiche. Questi modelli di AI possono segnalare potenziali anomalie, come i tumori in fase iniziale, spesso con una velocità e una coerenza che aiutano i medici a formulare diagnosi più rapide e accurate.

AI generativa e produzione di contenuti

I carichi di lavoro basati su modelli di AI generativa stanno contribuendo a trasformare i settori creativi e tecnici. Vengono utilizzati per generare automaticamente testi di marketing, sintetizzare immagini realistiche per la pubblicità, creare riassunti di riunioni virtuali o persino assistere gli sviluppatori suggerendo e completando blocchi di codice.

Implementazione dei workload di AI su Google Cloud

Google Cloud può offrire un ecosistema potente e unificato basato sull'infrastruttura che alimenta i progressi dell'AI di Google, rendendolo una piattaforma ideale per ospitare, scalare, orchestrare e governare i tuoi carichi di lavoro di AI e ML.

Vertex AI è una piattaforma di machine learning unificata che riunisce tutti i servizi cloud per la creazione, il deployment e la scalabilità dei modelli ML. Può fornire un unico ambiente per l'intero ciclo di vita MLOps, consentendo a data scientist e ingegneri di concentrarsi sullo sviluppo del modello anziché sull'integrazione degli strumenti.

Google Cloud offre un'ampia gamma di opzioni di calcolo, tra cui Cloud TPU e Cloud GPU. Le Cloud TPU (Tensor Processing Unit) sono progettate appositamente per fornire modelli di AI su larga scala. Le GPU cloud sono basate su unità di elaborazione grafica (GPU) NVIDIA e offrono un computing flessibile e ad alte prestazioni per un'ampia gamma di carichi di lavoro di AI e HPC.


Vertex AI Pipelines ti consente di automatizzare, gestire e monitorare l'intero flusso di lavoro di machine learning utilizzando strumenti open source come Kubeflow. Questo può essere essenziale per creare processi affidabili e ripetibili per la preparazione, l'addestramento e il deployment dei dati.

Identity and Access Management (IAM) di Google Cloud fornisce controlli granulari per gestire chi può accedere e gestire le risorse, i dati e i modelli di AI. Ciò può garantire che solo il personale e i servizi autorizzati possano interagire con i tuoi carichi di lavoro AI sensibili, contribuendo a soddisfare rigorosi standard normativi e di sicurezza.

Google Kubernetes Engine (GKE) è un servizio Kubernetes completamente gestito e scalabile, fondamentale per l'esecuzione di carichi di lavoro di AI containerizzati. Può consentirti di orchestrare e gestire cluster complessi, con flessibilità negli acceleratori hardware, ed estendere il tuo ambiente di AI senza problemi tra il cloud pubblico e i sistemi on-premise.

Vantaggi dei workload di AI

Il deployment dei carichi di lavoro di AI può apportare vantaggi aziendali e tecnici significativi, concentrandosi principalmente sull'efficienza, sulla scalabilità superiore e sulla capacità di promuovere l'innovazione basata sui dati in modo rapido. Possono consentire alle organizzazioni di passare da operazioni reattive a una strategia più proattiva e intelligente.

Scalabilità e prestazioni accelerate

I carichi di lavoro di AI, in particolare nel cloud, possono scalare le risorse, ad esempio aggiungendo centinaia di GPU, su richiesta per gestire enormi set di dati e modelli complessi senza la necessità di ingenti spese di capitale iniziali.

Costi operativi ottimizzati

Le piattaforme di AI basate su cloud ti consentono di pagare solo le risorse di computing che utilizzi effettivamente, offrendo aiuto per l'ottimizzazione dei costi rispetto alla manutenzione di cluster hardware on-premise dedicati che rimangono inattivi per periodi di tempo.

Pipeline di deployment standardizzate e semplificate

Le piattaforme per i carichi di lavoro di AI utilizzano strumenti MLOps (machine learning operations) per automatizzare e standardizzare il ciclo di vita end-to-end, dalla preparazione dei dati al deployment e al monitoraggio del modello.

Integrazione di sicurezza e governance

Una piattaforma cloud fornisce funzionalità di sicurezza integrate, come Identity and Access Management (IAM) e sicurezza di rete, direttamente integrate nel tuo ambiente di AI. Ciò contribuisce a semplificare il processo di soddisfazione dei requisiti di conformità normativa e governance.

Supporto per ambienti ibridi e multi-cloud

Le soluzioni di AI sono progettate per essere eseguite in modo flessibile. Possono sfruttare i container e gli strumenti di orchestrazione per gestire ed eseguire i workload in modo coerente tra i vari fornitori di cloud pubblico.

Passaggi per il deployment di un workload di inferenza del modello con Vertex AI

Il deployment di un modello di machine learning addestrato per l'inferenza può essere un passaggio fondamentale per la messa in produzione di un carico di lavoro di AI. Vertex AI semplifica questo processo fornendo servizi gestiti che si occupano dell'infrastruttura sottostante.

Carica il modello addestrato nel registro dei modelli

  • Il primo passaggio consiste nel prendere l'artefatto del modello addestrato e caricarlo nel Vertex AI Model Registry. Questo repository centrale archivia e versiona i tuoi modelli in modo sicuro, rendendoli pronti per il deployment.

Crea un endpoint gestito

  • Successivamente, crei un endpoint, ovvero un server HTTP dedicato in tempo reale per il tuo modello. Questo endpoint è l'URL che le tue applicazioni chiameranno per ottenere le previsioni. Definisci il tipo di risorse di computing che utilizzerà, ad esempio una macchina CPU N1 o un tipo specifico di GPU per prestazioni accelerate.

Esegui il deployment del modello nell'endpoint

  • Dopo aver creato l'endpoint, devi eseguirvi il deployment di una versione specifica del modello. Questo passaggio prevede la specifica dell'immagine container che include il modello e il codice del server di previsione (spesso un'immagine predefinita fornita da Vertex AI). Configuri anche le suddivisioni del traffico, che ti consentono di testare una nuova versione del modello con una piccola percentuale di traffico live prima di implementarla completamente.

Inviare e ricevere previsioni online

  • Una volta eseguito il deployment, il modello è disponibile per la previsione online. La tua applicazione invia i dati di input (il payload) tramite una richiesta HTTP all'URL dell'endpoint e il servizio gestito gestisce il carico di lavoro di inferenza, restituendo la previsione o il risultato in tempo quasi reale.

Monitora e governa l'endpoint

  • Il passaggio finale è il monitoraggio continuo. Utilizzi gli strumenti integrati di Vertex AI per monitorare l'integrità dell'endpoint (latenza, tassi di errore, utilizzo delle risorse) e le prestazioni del modello stesso (drift, asimmetria e qualità della previsione) per garantire che il carico di lavoro di inferenza rimanga affidabile e accurato nel tempo.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Risorse aggiuntive

  • Introduzione ai carichi di lavoro di AI/ML su GKE: Google Kubernetes Engine fornisce una piattaforma gestita per eseguire il deployment e la scalabilità di carichi di lavoro di AI e machine learning containerizzati, supportando l'addestramento e l'inferenza su larga scala con acceleratori hardware come GPU e TPU.
  • Progettare l'archiviazione per i carichi di lavoro di AI e ML: questa guida ti aiuta a progettare strategie di archiviazione per flussi di lavoro di AI e machine learning, consigliando servizi come Cloud Storage e Managed Lustre in base a specifici requisiti di latenza, velocità effettiva e capacità.

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.

Google Cloud