Che cos'è l'inferenza AI?

L'inferenza AI è la parte "pratica" dell'intelligenza artificiale. È il momento in cui un modello addestrato smette di apprendere e inizia a lavorare, trasformando le sue conoscenze in risultati concreti.

Pensa in questo modo: se l'addestramento è come insegnare una nuova abilità all'AI, l'inferenza è l'AI che usa effettivamente l'abilità per svolgere un lavoro. Riceve nuovi dati (come una foto o un pezzo di testo) e produce un output istantaneo, come una previsione, genera una foto o prende una decisione. È qui che l'AI offre valore aziendale. Per chiunque crei con l'AI, comprendere come rendere l'inferenza veloce, scalabile ed economicamente vantaggiosa è la chiave per creare soluzioni di successo. Ad esempio, uno sviluppatore aziendale potrebbe utilizzare l'inferenza AI su Google Kubernetes Engine (GKE) per creare un sistema che analizzi gli acquisti dei clienti in tempo reale e offra sconti personalizzati al momento del pagamento, aumentando le vendite e la soddisfazione dei clienti.

BLOG

Chiedi all'esperto: cos'è l'inferenza?

"Addestramento dell'AI" rispetto a "ottimizzazione" rispetto a "inferenza" rispetto a "pubblicazione"

Sebbene il ciclo di vita completo dell'AI comprenda tutto, dalla raccolta dei dati al monitoraggio a lungo termine, il percorso centrale di un modello, dalla creazione all'esecuzione, prevede tre fasi chiave. I primi due riguardano l'apprendimento, mentre l'ultimo riguarda l'applicazione di ciò che si è appreso.

L'addestramento dell'AI è la fase di apprendimento fondamentale. È un processo ad alta intensità di calcolo in cui un modello analizza un set di dati di grandi dimensioni per apprendere pattern e relazioni. L'obiettivo è creare un modello accurato e informato. Ciò richiede potenti acceleratori hardware (come GPU e TPU) e può richiedere da ore a settimane.
L'ottimizzazione dell'AI è una scorciatoia per l'addestramento. Prende un modello preaddestrato potente e lo adatta a un'attività più specifica utilizzando un set di dati più piccolo e specializzato. Ciò consente di risparmiare tempo e risorse significativi rispetto all'addestramento di un modello da zero.
L'inferenza AI è la fase di esecuzione. Utilizza il modello addestrato e ottimizzato per fare previsioni rapide su dati nuovi e "mai visti". Ogni singola previsione richiede molte meno risorse di calcolo rispetto all'addestramento, ma la fornitura di milioni di previsioni in tempo reale richiede un'infrastruttura altamente ottimizzata e scalabile.
La distribuzione dell'AI è il processo di deployment e gestione del modello per l'inferenza. Ciò spesso comporta il packaging del modello, la configurazione di un endpoint API e la gestione dell'infrastruttura per gestire le richieste.

Questa tabella riassume le principali differenze:

	Formazione sull'AI	Ottimizzazione dell'AI	Inferenza AI	Distribuzione dell'AI
Obiettivo	Crea un nuovo modello da zero.	Adatta un modello preaddestrato per un'attività specifica.	Utilizza un modello addestrato per fare previsioni.	Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.
Procedura	Apprende in modo iterativo da un set di dati di grandi dimensioni.	Perfeziona un modello esistente con un set di dati più piccolo.	Un singolo e rapido "passaggio in avanti" di nuovi dati.	Crea un pacchetto del modello ed esponilo come API
Dati	Set di dati di grandi dimensioni, storici ed etichettati.	Set di dati più piccoli e specifici per le attività.	Dati non etichettati, reali e in tempo reale.	N/D
Focus sull'attività	Accuratezza e capacità del modello.	Efficienza e personalizzazione.	Velocità (latenza), scalabilità ed efficienza in termini di costi.	Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.

Formazione sull'AI

Ottimizzazione dell'AI

Inferenza AI

Distribuzione dell'AI

Obiettivo

Crea un nuovo modello da zero.

Adatta un modello preaddestrato per un'attività specifica.

Utilizza un modello addestrato per fare previsioni.

Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.

Procedura

Apprende in modo iterativo da un set di dati di grandi dimensioni.

Perfeziona un modello esistente con un set di dati più piccolo.

Un singolo e rapido "passaggio in avanti" di nuovi dati.

Crea un pacchetto del modello ed esponilo come API

Dati

Set di dati di grandi dimensioni, storici ed etichettati.

Set di dati più piccoli e specifici per le attività.

Dati non etichettati, reali e in tempo reale.

N/D

Focus sull'attività

Accuratezza e capacità del modello.

Efficienza e personalizzazione.

Velocità (latenza), scalabilità ed efficienza in termini di costi.

Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.

Come funziona l'inferenza AI?

L'inferenza AI si basa su 3 passaggi che trasformano i nuovi dati in un output utile.

Vediamo un semplice esempio: un modello di AI creato per identificare gli oggetti nelle foto.

Preparazione dei dati di input: innanzitutto, vengono forniti nuovi dati, ad esempio una foto che hai appena inviato. La foto viene preparata immediatamente per il modello, il che potrebbe significare semplicemente ridimensionarla alle dimensioni esatte su cui è stato addestrato.
Esecuzione del modello: il modello di AI analizza la foto preparata. Cerca pattern, come colori, forme e texture, che corrispondono a ciò che ha appreso durante l'addestramento. Questa rapida analisi è chiamata "forward pass", un passaggio di sola lettura in cui il modello applica le sue conoscenze senza apprendere nulla di nuovo.
Generazione dell'output: il modello produce un risultato fruibile. Per l'analisi delle foto, potrebbe trattarsi di un punteggio di probabilità (ad esempio, una probabilità del 95% che l'immagine contenga un "cane"). Questo output viene quindi inviato all'applicazione e mostrato all'utente.

Sebbene una singola inferenza sia rapida, servire milioni di utenti in tempo reale aumenta la latenza, i costi e richiede hardware ottimizzato. Le unità di elaborazione grafica (GPU) specializzate per l'AI e le Tensor Processing Unit di Google sono progettate per gestire queste attività in modo efficiente insieme all'orchestrazione con Google Kubernetes Engine, contribuendo ad aumentare il throughput e a ridurre la latenza.

Tipi di inferenza AI

Inferenza nel cloud: per potenza e scalabilità

È l'approccio più comune, in cui l'inferenza viene eseguita su potenti server remoti in un data center. Il cloud offre un'immensa scalabilità e risorse di calcolo, il che lo rende ideale per la gestione di set di dati enormi e modelli complessi. All'interno del cloud, in genere esistono 2 modalità principali di inferenza:

Inferenza in tempo reale (online): elabora le singole richieste istantaneamente quando arrivano, spesso in pochi millisecondi. Questo è fondamentale per le applicazioni interattive che richiedono un feedback immediato.
Inferenza batch (offline): gestisce grandi volumi di dati tutti in una volta, in genere quando non sono richieste risposte immediate. È un metodo molto conveniente per analisi periodiche o attività pianificate.

Inferenza edge: per velocità e privacy

Questo approccio esegue l'inferenza direttamente sul dispositivo in cui vengono generati i dati, che potrebbe essere uno smartphone o un sensore industriale. Evitando un round trip al cloud, l'inferenza Edge offre vantaggi unici come quelli che seguono.

Latenza ridotta: le risposte sono quasi istantanee, il che è fondamentale per applicazioni come i veicoli autonomi o i controlli di produzione in tempo reale.
Privacy migliorata: i dati sensibili (come scansioni mediche, foto personali, feed video) possono essere elaborati sul dispositivo senza mai essere inviati al cloud.
Costi di larghezza di banda inferiori: l'elaborazione dei dati a livello locale riduce in modo significativo la quantità di dati che devono essere caricati e scaricati.
Funzionalità offline: l'applicazione può continuare a funzionare anche senza una connessione a internet, garantendo un funzionamento continuo in ambienti remoti o disconnessi.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Confronto dell'inferenza AI

Per aiutarti a scegliere l'approccio migliore per le tue esigenze specifiche, ecco un rapido confronto delle caratteristiche principali e dei casi d'uso per ogni tipo di inferenza AI:

Funzionalità	Inferenza batch	Inferenza in tempo reale	Inferenza Edge
Località principale	Cloud (data center)	Cloud (data center)	Dispositivo locale (come smartphone, sensore IoT, robot)
Latenza/reattività	Elevata (previsioni restituite dopo l'elaborazione del batch)	Molto bassa (da millisecondi a secondi per richiesta)	Estremamente bassa (quasi istantanea, nessun hop di rete)
Volume di dati	Set di dati di grandi dimensioni (ad es. terabyte)	Eventi/richieste individuali	Richieste/eventi singoli (on-device)
Flusso dei dati	I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti	Ogni richiesta inviata al cloud, elaborata e restituita	Dati elaborati on-device, risultati utilizzati on-device
Casi d'uso tipici	Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica	Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale	Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale
Vantaggi principali	Conveniente per attività di grandi dimensioni e non urgenti	Reattività immediata per le app rivolte agli utenti	Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti

Funzionalità

Inferenza batch

Inferenza in tempo reale

Inferenza Edge

Località principale

Cloud (data center)

Dispositivo locale (come smartphone, sensore IoT, robot)

Latenza/reattività

Elevata (previsioni restituite dopo l'elaborazione del batch)

Molto bassa (da millisecondi a secondi per richiesta)

Estremamente bassa (quasi istantanea, nessun hop di rete)

Volume di dati

Set di dati di grandi dimensioni (ad es. terabyte)

Eventi/richieste individuali

Richieste/eventi singoli (on-device)

Flusso dei dati

I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti

Ogni richiesta inviata al cloud, elaborata e restituita

Dati elaborati on-device, risultati utilizzati on-device

Casi d'uso tipici

Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica

Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale

Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale

Vantaggi principali

Conveniente per attività di grandi dimensioni e non urgenti

Reattività immediata per le app rivolte agli utenti

Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti

Casi d'uso per gli sviluppatori

L'inferenza AI sta trasformando i settori consentendo nuovi livelli di automazione, un processo decisionale più smart e applicazioni innovative. Per gli sviluppatori aziendali, ecco alcune aree critiche in cui l'inferenza offre un valore aziendale tangibile:

Rilevamento di rischi e frodi in tempo reale

Analizza istantaneamente le transazioni finanziarie, il comportamento degli utenti o i log di sistema per identificare e segnalare le attività sospette. Ciò consente un intervento proattivo per prevenire attività fraudolente, riciclaggio di denaro o violazioni della sicurezza.
Esempio: una società di carte di credito utilizza l'inferenza per autorizzare le transazioni in millisecondi, bloccando immediatamente gli acquisti potenzialmente fraudolenti.

Ultra-personalizzazione e motori di consigli

Offri esperienze altamente personalizzate agli utenti prevedendo le loro preferenze in base alle interazioni passate e al contesto in tempo reale.
Esempio: le piattaforme di e-commerce utilizzano l'inferenza per suggerire prodotti agli acquirenti o i servizi di streaming consigliano film in base alle abitudini di visione, aumentando il coinvolgimento e le vendite.

Automazione e agenti basati sull'AI

Esegui il deployment di modelli di AI per automatizzare le attività di routine, fornire assistenza intelligente o interagire con gli utenti su larga scala.
Esempio: le organizzazioni di assistenza clienti utilizzano agenti AI per gestire le richieste comuni, liberando gli agenti umani per i problemi complessi, oppure le fabbriche utilizzano l'AI per l'ispezione automatizzata della qualità sulle catene di montaggio.

Manutenzione e operazioni predittive

Analizza i dati dei sensori di macchinari, infrastrutture o sistemi IT per prevedere i guasti, la domanda o ottimizzare l'allocazione delle risorse prima che si verifichino problemi.
Esempio: i produttori utilizzano l'inferenza per prevedere quando le apparecchiature necessitano di assistenza, riducendo al minimo i tempi di inattività e prolungando la durata degli asset, oppure le società di logistica ottimizzano i percorsi in base alle previsioni del traffico in tempo reale.

Generazione e comprensione avanzate dei contenuti

Sfrutta l'AI per creare nuovi contenuti (testo, codice, immagini, audio) o comprendere a fondo i dati non strutturati esistenti.
Esempio: gli sviluppatori utilizzano modelli di generazione di codice per accelerare lo sviluppo di software, mentre i team di marketing usano l'AI per riassumere documenti di grandi dimensioni e personalizzare il testo pubblicitario.

Che tipo di problema stai cercando di risolvere?

What you'll get:

Guida passo passo

Architettura di riferimento

Soluzioni predefinite disponibili

Questo servizio è stato creato con Vertex AI. Devi avere almeno 18 anni per utilizzarlo. Non inserire informazioni sensibili, riservate o personali.

In che modo Google Cloud può aiutarti

Google Cloud offre una suite completa di strumenti e servizi che aiutano gli sviluppatori e le organizzazioni a creare, eseguire il deployment e gestire i workload di inferenza AI in modo efficiente e su larga scala. Le funzionalità di inferenza sono profondamente integrate in molte offerte:

Soluzioni e prodotti correlati

Prodotto Google Cloud	Approccio di inferenza supportato	Ideale quando	Esempio di caso d'uso di inferenza
Google Kubernetes Engine (GKE)	Tutti i tipi di inferenza (cloud e ibrida)	Ottieni il massimo controllo e la massima flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi.	Scala un modello di AI personalizzato ed eseguine il deployment per il rilevamento di anomalie in tempo reale in un sistema industriale complesso.
Cloud Run	Inferenza cloud in tempo reale (serverless)	Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.	Pubblica un modello di dimensioni medio-piccole per un'applicazione web in cui il traffico fluttua ampiamente, garantendo l'efficienza dei costi.
GPU NVIDIA su Google Cloud	Inferenza cloud in tempo reale e batch	Ottieni un'accelerazione flessibile e ad alte prestazioni per un'ampia gamma di framework e modelli di AI.	Elabora rapidamente immagini ad alta risoluzione per la diagnostica medica o accelera la modellazione finanziaria complessa.
BigQuery ML	Inferenza cloud batch (data warehouse)	Esegui l'inferenza direttamente sui dati già presenti nel tuo data warehouse utilizzando SQL, eliminando lo spostamento dei dati.	Prevedi l'abbandono dei clienti direttamente sui dati CRM all'interno di BigQuery.
API di AI preaddestrate	Inferenza cloud in tempo reale (attività specifiche)	Esegui facilmente l'embedding di funzionalità di AI avanzate (come visione artificiale, linguaggio, voce) nelle applicazioni senza creare o addestrare alcun modello.	Traduci automaticamente i messaggi di chat dei clienti in tempo reale o comprendi il sentiment dai post sui social media.
Cloud TPU	Inferenza cloud in tempo reale e batch (modelli di grandi dimensioni)	Ottieni le massime prestazioni e la massima efficienza in termini di costi quando gestisci modelli di deep learning molto grandi e complessi, in particolare modelli linguistici di grandi dimensioni (LLM).	Potenzia le risposte in tempo reale di un chatbot di AI generativa all'avanguardia.
Soluzioni Edge (come Coral, GDC Edge)	Inferenza Edge	Abilita latenza molto bassa, privacy avanzata o funzionalità offline eseguendo i modelli direttamente on-device.	Esegui il riconoscimento istantaneo degli oggetti su una videocamera smart senza inviare video al cloud.
Dataproc	Preparazione dei dati per l'inferenza cloud batch	Elabora e prepara in modo efficiente grandi quantità di dati per job di inferenza batch su larga scala.	Pre-elabora petabyte di dati dei sensori prima di inserirli in un modello di manutenzione predittiva.

Prodotto Google Cloud

Approccio di inferenza supportato

Ideale quando

Esempio di caso d'uso di inferenza

Google Kubernetes Engine (GKE)

Tutti i tipi di inferenza (cloud e ibrida)

Ottieni il massimo controllo e la massima flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi.

Scala un modello di AI personalizzato ed eseguine il deployment per il rilevamento di anomalie in tempo reale in un sistema industriale complesso.

Cloud Run

Inferenza cloud in tempo reale (serverless)

Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.

Pubblica un modello di dimensioni medio-piccole per un'applicazione web in cui il traffico fluttua ampiamente, garantendo l'efficienza dei costi.

GPU NVIDIA su Google Cloud

Inferenza cloud in tempo reale e batch

Ottieni un'accelerazione flessibile e ad alte prestazioni per un'ampia gamma di framework e modelli di AI.

Elabora rapidamente immagini ad alta risoluzione per la diagnostica medica o accelera la modellazione finanziaria complessa.

BigQuery ML

Inferenza cloud batch (data warehouse)

Esegui l'inferenza direttamente sui dati già presenti nel tuo data warehouse utilizzando SQL, eliminando lo spostamento dei dati.

Prevedi l'abbandono dei clienti direttamente sui dati CRM all'interno di BigQuery.

API di AI preaddestrate

Inferenza cloud in tempo reale (attività specifiche)

Esegui facilmente l'embedding di funzionalità di AI avanzate (come visione artificiale, linguaggio, voce) nelle applicazioni senza creare o addestrare alcun modello.

Traduci automaticamente i messaggi di chat dei clienti in tempo reale o comprendi il sentiment dai post sui social media.

Cloud TPU

Inferenza cloud in tempo reale e batch (modelli di grandi dimensioni)

Ottieni le massime prestazioni e la massima efficienza in termini di costi quando gestisci modelli di deep learning molto grandi e complessi, in particolare modelli linguistici di grandi dimensioni (LLM).

Potenzia le risposte in tempo reale di un chatbot di AI generativa all'avanguardia.

Soluzioni Edge (come Coral, GDC Edge)

Inferenza Edge

Abilita latenza molto bassa, privacy avanzata o funzionalità offline eseguendo i modelli direttamente on-device.

Esegui il riconoscimento istantaneo degli oggetti su una videocamera smart senza inviare video al cloud.

Dataproc

Preparazione dei dati per l'inferenza cloud batch

Elabora e prepara in modo efficiente grandi quantità di dati per job di inferenza batch su larga scala.

Pre-elabora petabyte di dati dei sensori prima di inserirli in un modello di manutenzione predittiva.

Vertex AI

Vertex AI è l'AI Platform unificata di Google Cloud. Fornisce strumenti completi per la creazione, il deployment e la gestione di modelli ML, il che lo rende il servizio di riferimento per la maggior parte delle esigenze di inferenza basata su cloud.

Funzionalità di Vertex AI	Approccio di inferenza	Ideale quando	Esempio di caso d'uso di inferenza
Previsioni online	Inferenza cloud in tempo reale	Esegui il deployment di modelli personalizzati e ottieni previsioni in tempo reale a bassa latenza da un endpoint gestito.	Consiglia immediatamente i prodotti a un utente che sta navigando su un sito web.
Previsioni in batch	Inferenza cloud batch	Elabora set di dati di grandi dimensioni in modo conveniente senza bisogno di risultati in tempo reale.	Analizza tutte le transazioni dei clienti di ieri per rilevare i pattern di attività fraudolenta.
Model Garden e foundation model	Inferenza cloud in tempo reale e batch (AI generativa)	Sfrutta rapidamente potenti modelli preaddestrati per attività AI generativa o comune senza doverli addestrare da zero.	Genera testi di marketing, riassumi documenti lunghi o crea snippet di codice.

Funzionalità di Vertex AI

Approccio di inferenza

Ideale quando

Esempio di caso d'uso di inferenza

Previsioni online

Inferenza cloud in tempo reale

Esegui il deployment di modelli personalizzati e ottieni previsioni in tempo reale a bassa latenza da un endpoint gestito.

Consiglia immediatamente i prodotti a un utente che sta navigando su un sito web.

Previsioni in batch

Inferenza cloud batch

Elabora set di dati di grandi dimensioni in modo conveniente senza bisogno di risultati in tempo reale.

Analizza tutte le transazioni dei clienti di ieri per rilevare i pattern di attività fraudolenta.

Model Garden e foundation model

Inferenza cloud in tempo reale e batch (AI generativa)

Sfrutta rapidamente potenti modelli preaddestrati per attività AI generativa o comune senza doverli addestrare da zero.

Genera testi di marketing, riassumi documenti lunghi o crea snippet di codice.

Esplora le risorse di inferenza AI

Vuoi portare le tue competenze di inferenza AI a un livello superiore? Ecco alcune risorse preziose per aiutarti a scoprire di più e iniziare:

Segui un corso sull'inferenza AI su Cloud Run
Guarda questo video sul segreto per un'inferenza AI conveniente
Impara a utilizzare Cloud Run per l'inferenza AI
Scopri come accelerare i workload di inferenza AI

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.

Hai bisogno di aiuto per iniziare?
Contatta il team di vendita
Collabora con un partner di fiducia
Trova un partner
Continua la navigazione
Visualizza tutti i prodotti