Un workload di AI è l'insieme di attività e processi computazionali che alimentano i sistemi di intelligenza artificiale o machine learning (ML). Pensa al computing intensivo necessario a un'applicazione di AI per apprendere, fare previsioni o generare nuovi contenuti. Questi workload possono essere essenziali per i professionisti che creano l'AI, poiché comprendono le fasi chiave che guidano i sistemi di machine learning: preparazione dei dati, addestramento del modello, inferenza e monitoraggio.
I workload di AI e ML possono essere ampiamente suddivisi in due modi
Comprendere questi tipi aiuta i responsabili delle decisioni tecniche a pianificare l'infrastruttura specifica, la potenza di calcolo e le strategie di orchestrazione che ognuno richiede.
Tipo di workload AI | Funzione principale nel ciclo di vita dell'AI | Focus computazionale richiesto |
Preparazione dei dati | Pulizia, trasformazione e formattazione dei dati non elaborati in uno stato pronto per il modello. | Elaborazione con utilizzo intensivo di I/O (input/output) e CPU per la manipolazione dei dati. |
Addestramento del modello | Utilizzo di dati preparati per insegnare al modello di AI, regolando in modo iterativo i suoi parametri per ottenere accuratezza. | Potenza di calcolo estrema (GPU/TPU), memoria elevata ed elaborazione parallela. |
Inferenza del modello | Eseguire il deployment del modello addestrato per fare previsioni in tempo reale o generare output su nuovi dati. | Bassa latenza e velocità effettiva elevata, che spesso richiedono hardware edge o cloud specializzato. |
Generative AI | Creazione di nuovi contenuti, come testo, immagini o codice, utilizzando foundation model di grandi dimensioni. | Inferenza e ottimizzazione su larga scala, che richiedono GPU/TPU di fascia alta. |
Visione artificiale | Consentire alle macchine di interpretare e agire sui dati visivi come immagini e video. | Throughput di dati a volume elevato e accelerazione specializzata del deep learning. |
Elaborazione del linguaggio naturale (NLP, Natural Language Processing) | Elaborazione e comprensione del linguaggio umano per attività come la traduzione e il riepilogo. | Una combinazione di addestramento accelerato da GPU ed erogazione a bassa latenza per applicazioni in tempo reale. |
Tipo di workload AI
Funzione principale nel ciclo di vita dell'AI
Focus computazionale richiesto
Preparazione dei dati
Pulizia, trasformazione e formattazione dei dati non elaborati in uno stato pronto per il modello.
Elaborazione con utilizzo intensivo di I/O (input/output) e CPU per la manipolazione dei dati.
Addestramento del modello
Utilizzo di dati preparati per insegnare al modello di AI, regolando in modo iterativo i suoi parametri per ottenere accuratezza.
Potenza di calcolo estrema (GPU/TPU), memoria elevata ed elaborazione parallela.
Inferenza del modello
Eseguire il deployment del modello addestrato per fare previsioni in tempo reale o generare output su nuovi dati.
Bassa latenza e velocità effettiva elevata, che spesso richiedono hardware edge o cloud specializzato.
Generative AI
Creazione di nuovi contenuti, come testo, immagini o codice, utilizzando foundation model di grandi dimensioni.
Inferenza e ottimizzazione su larga scala, che richiedono GPU/TPU di fascia alta.
Visione artificiale
Consentire alle macchine di interpretare e agire sui dati visivi come immagini e video.
Throughput di dati a volume elevato e accelerazione specializzata del deep learning.
Elaborazione del linguaggio naturale (NLP, Natural Language Processing)
Elaborazione e comprensione del linguaggio umano per attività come la traduzione e il riepilogo.
Una combinazione di addestramento accelerato da GPU ed erogazione a bassa latenza per applicazioni in tempo reale.
I carichi di lavoro di AI sono caratterizzati principalmente dall'essere ad alta intensità di dati, dall'elaborazione di set di dati massicci, spesso non strutturati, e ad alta intensità di calcolo, che richiedono hardware di elaborazione parallela specializzato come le GPU per l'addestramento. I carichi di lavoro tradizionali, come i database relazionali o i semplici server web, sono più incentrati sulla velocità effettiva transazionale coerente e sono in genere ottimizzati per le architetture CPU standard.
Scegli i carichi di lavoro di addestramento quando devi creare un nuovo modello o migliorare in modo significativo uno esistente fornendogli nuovi dati, il che può richiedere costi elevati e grande potenza di calcolo.
Utilizzi i carichi di lavoro di inferenza quando il modello è pronto ed è stato distribuito in produzione e devi fare previsioni in tempo reale o in batch, che danno priorità alla bassa latenza e alla velocità effettiva elevata a un costo inferiore per transazione.
Le sfide più grandi in genere riguardano l'orchestrazione, ovvero il coordinamento efficiente di grandi cluster di GPU e TPU; la gestione dei dati, ovvero la garanzia di un accesso rapido e affidabile a petabyte di dati; e il controllo dei costi, ovvero la gestione del consumo di risorse di calcolo costose per evitare spese eccessive per un'infrastruttura inattiva.
Le tendenze emergenti includono l'utilizzo di piattaforme serverless con supporto GPU per astrarre la gestione dell'infrastruttura, l'adozione dell'orchestrazione multicloud per un utilizzo flessibile delle risorse e lo sfruttamento di modelli di base che richiedono meno addestramento da zero e si concentrano maggiormente sulla ottimizzazione e sulla distribuzione efficiente.
I carichi di lavoro di AI sono al centro della trasformazione digitale, fornendo applicazioni reali e di grande impatto in quasi tutti i settori, trasformando i dati in valore pratico.
I workload di AI possono alimentare motori di suggerimenti per aziende di vendita al dettaglio, e-commerce e media. Ad esempio, una società di streaming utilizza un sofisticato modello di ML, addestrato su miliardi di abitudini di visione, per fornire suggerimenti di contenuti altamente personalizzati.
I produttori distribuiscono sensori su apparecchiature critiche, generando enormi quantità di dati di serie temporali. I carichi di lavoro di AI possono analizzare continuamente questi dati per prevedere guasti meccanici con giorni o settimane di anticipo, consentendo una manutenzione programmata.
Gli istituti finanziari utilizzano i carichi di lavoro di machine learning per analizzare milioni di transazioni in tempo reale. Questi modelli possono identificare pattern indicativi di frode, con alcuni sistemi che rilevano transazioni non autorizzate con un alto grado di accuratezza e un basso tasso di falsi positivi.
I carichi di lavoro di computer vision vengono utilizzati per analizzare immagini mediche come radiografie, TAC e risonanze magnetiche. Questi modelli di AI possono segnalare potenziali anomalie, come i tumori in fase iniziale, spesso con una velocità e una coerenza che aiutano i medici a formulare diagnosi più rapide e accurate.
I carichi di lavoro basati su modelli di AI generativa stanno contribuendo a trasformare i settori creativi e tecnici. Vengono utilizzati per generare automaticamente testi di marketing, sintetizzare immagini realistiche per la pubblicità, creare riassunti di riunioni virtuali o persino assistere gli sviluppatori suggerendo e completando blocchi di codice.
Google Cloud può offrire un ecosistema potente e unificato basato sull'infrastruttura che alimenta i progressi dell'AI di Google, rendendolo una piattaforma ideale per ospitare, scalare, orchestrare e governare i tuoi carichi di lavoro di AI e ML.
Vertex AI è una piattaforma di machine learning unificata che riunisce tutti i servizi cloud per la creazione, il deployment e la scalabilità dei modelli ML. Può fornire un unico ambiente per l'intero ciclo di vita MLOps, consentendo a data scientist e ingegneri di concentrarsi sullo sviluppo del modello anziché sull'integrazione degli strumenti.
Google Cloud offre un'ampia gamma di opzioni di calcolo, tra cui Cloud TPU e Cloud GPU. Le Cloud TPU (Tensor Processing Unit) sono progettate appositamente per fornire modelli di AI su larga scala. Le GPU cloud sono basate su unità di elaborazione grafica (GPU) NVIDIA e offrono un computing flessibile e ad alte prestazioni per un'ampia gamma di carichi di lavoro di AI e HPC.
Vertex AI Pipelines ti consente di automatizzare, gestire e monitorare l'intero flusso di lavoro di machine learning utilizzando strumenti open source come Kubeflow. Questo può essere essenziale per creare processi affidabili e ripetibili per la preparazione, l'addestramento e il deployment dei dati.
Identity and Access Management (IAM) di Google Cloud fornisce controlli granulari per gestire chi può accedere e gestire le risorse, i dati e i modelli di AI. Ciò può garantire che solo il personale e i servizi autorizzati possano interagire con i tuoi carichi di lavoro AI sensibili, contribuendo a soddisfare rigorosi standard normativi e di sicurezza.
Google Kubernetes Engine (GKE) è un servizio Kubernetes completamente gestito e scalabile, fondamentale per l'esecuzione di carichi di lavoro di AI containerizzati. Può consentirti di orchestrare e gestire cluster complessi, con flessibilità negli acceleratori hardware, ed estendere il tuo ambiente di AI senza problemi tra il cloud pubblico e i sistemi on-premise.
Il deployment dei carichi di lavoro di AI può apportare vantaggi aziendali e tecnici significativi, concentrandosi principalmente sull'efficienza, sulla scalabilità superiore e sulla capacità di promuovere l'innovazione basata sui dati in modo rapido. Possono consentire alle organizzazioni di passare da operazioni reattive a una strategia più proattiva e intelligente.
Scalabilità e prestazioni accelerate
I carichi di lavoro di AI, in particolare nel cloud, possono scalare le risorse, ad esempio aggiungendo centinaia di GPU, su richiesta per gestire enormi set di dati e modelli complessi senza la necessità di ingenti spese di capitale iniziali.
Costi operativi ottimizzati
Le piattaforme di AI basate su cloud ti consentono di pagare solo le risorse di computing che utilizzi effettivamente, offrendo aiuto per l'ottimizzazione dei costi rispetto alla manutenzione di cluster hardware on-premise dedicati che rimangono inattivi per periodi di tempo.
Pipeline di deployment standardizzate e semplificate
Le piattaforme per i carichi di lavoro di AI utilizzano strumenti MLOps (machine learning operations) per automatizzare e standardizzare il ciclo di vita end-to-end, dalla preparazione dei dati al deployment e al monitoraggio del modello.
Integrazione di sicurezza e governance
Una piattaforma cloud fornisce funzionalità di sicurezza integrate, come Identity and Access Management (IAM) e sicurezza di rete, direttamente integrate nel tuo ambiente di AI. Ciò contribuisce a semplificare il processo di soddisfazione dei requisiti di conformità normativa e governance.
Supporto per ambienti ibridi e multi-cloud
Le soluzioni di AI sono progettate per essere eseguite in modo flessibile. Possono sfruttare i container e gli strumenti di orchestrazione per gestire ed eseguire i workload in modo coerente tra i vari fornitori di cloud pubblico.
Il deployment di un modello di machine learning addestrato per l'inferenza può essere un passaggio fondamentale per la messa in produzione di un carico di lavoro di AI. Vertex AI semplifica questo processo fornendo servizi gestiti che si occupano dell'infrastruttura sottostante.
Carica il modello addestrato nel registro dei modelli
Crea un endpoint gestito
Esegui il deployment del modello nell'endpoint
Inviare e ricevere previsioni online
Monitora e governa l'endpoint
Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.