L'inferenza AI è la parte "pratica" dell'intelligenza artificiale. È il momento in cui un modello addestrato smette di apprendere e inizia a lavorare, trasformando le sue conoscenze in risultati concreti.
Pensa in questo modo: se l'addestramento è come insegnare una nuova abilità all'AI, l'inferenza è l'AI che usa effettivamente l'abilità per svolgere un lavoro. Riceve nuovi dati (come una foto o un pezzo di testo) e produce un output istantaneo, come una previsione, genera una foto o prende una decisione. È qui che l'AI offre valore aziendale. Per chiunque crei con l'AI, comprendere come rendere l'inferenza veloce, scalabile ed economicamente vantaggiosa è la chiave per creare soluzioni di successo. Ad esempio, uno sviluppatore aziendale potrebbe utilizzare l'inferenza AI su Google Kubernetes Engine (GKE) per creare un sistema che analizzi gli acquisti dei clienti in tempo reale e offra sconti personalizzati al momento del pagamento, aumentando le vendite e la soddisfazione dei clienti.
Sebbene il ciclo di vita completo dell'AI comprenda tutto, dalla raccolta dei dati al monitoraggio a lungo termine, il percorso centrale di un modello, dalla creazione all'esecuzione, prevede tre fasi chiave. I primi due riguardano l'apprendimento, mentre l'ultimo riguarda l'applicazione di ciò che si è appreso.
Questa tabella riassume le principali differenze:
Formazione sull'AI | Ottimizzazione dell'AI | Inferenza AI | Distribuzione dell'AI | |
Obiettivo | Crea un nuovo modello da zero. | Adatta un modello preaddestrato per un'attività specifica. | Utilizza un modello addestrato per fare previsioni. | Esegui il deployment e gestisci il modello per gestire le richieste di inferenza. |
Procedura | Apprende in modo iterativo da un set di dati di grandi dimensioni. | Perfeziona un modello esistente con un set di dati più piccolo. | Un singolo e rapido "passaggio in avanti" di nuovi dati. | Crea un pacchetto del modello ed esponilo come API |
Dati | Set di dati di grandi dimensioni, storici ed etichettati. | Set di dati più piccoli e specifici per le attività. | Dati non etichettati, reali e in tempo reale. | N/D |
Focus sull'attività | Accuratezza e capacità del modello. | Efficienza e personalizzazione. | Velocità (latenza), scalabilità ed efficienza in termini di costi. | Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza. |
Formazione sull'AI
Ottimizzazione dell'AI
Inferenza AI
Distribuzione dell'AI
Obiettivo
Crea un nuovo modello da zero.
Adatta un modello preaddestrato per un'attività specifica.
Utilizza un modello addestrato per fare previsioni.
Esegui il deployment e gestisci il modello per gestire le richieste di inferenza.
Procedura
Apprende in modo iterativo da un set di dati di grandi dimensioni.
Perfeziona un modello esistente con un set di dati più piccolo.
Un singolo e rapido "passaggio in avanti" di nuovi dati.
Crea un pacchetto del modello ed esponilo come API
Dati
Set di dati di grandi dimensioni, storici ed etichettati.
Set di dati più piccoli e specifici per le attività.
Dati non etichettati, reali e in tempo reale.
N/D
Focus sull'attività
Accuratezza e capacità del modello.
Efficienza e personalizzazione.
Velocità (latenza), scalabilità ed efficienza in termini di costi.
Affidabilità, scalabilità e gestibilità dell'endpoint di inferenza.
L'inferenza AI si basa su 3 passaggi che trasformano i nuovi dati in un output utile.
Vediamo un semplice esempio: un modello di AI creato per identificare gli oggetti nelle foto.
Sebbene una singola inferenza sia rapida, servire milioni di utenti in tempo reale aumenta la latenza, i costi e richiede hardware ottimizzato. Le unità di elaborazione grafica (GPU) specializzate per l'AI e le Tensor Processing Unit di Google sono progettate per gestire queste attività in modo efficiente insieme all'orchestrazione con Google Kubernetes Engine, contribuendo ad aumentare il throughput e a ridurre la latenza.
È l'approccio più comune, in cui l'inferenza viene eseguita su potenti server remoti in un data center. Il cloud offre un'immensa scalabilità e risorse di calcolo, il che lo rende ideale per la gestione di set di dati enormi e modelli complessi. All'interno del cloud, in genere esistono 2 modalità principali di inferenza:
Questo approccio esegue l'inferenza direttamente sul dispositivo in cui vengono generati i dati, che potrebbe essere uno smartphone o un sensore industriale. Evitando un round trip al cloud, l'inferenza Edge offre vantaggi unici come quelli che seguono.
Per aiutarti a scegliere l'approccio migliore per le tue esigenze specifiche, ecco un rapido confronto delle caratteristiche principali e dei casi d'uso per ogni tipo di inferenza AI:
Funzionalità | Inferenza batch | Inferenza in tempo reale | Inferenza Edge |
Località principale | Cloud (data center) | Cloud (data center) | Dispositivo locale (come smartphone, sensore IoT, robot) |
Latenza/reattività | Elevata (previsioni restituite dopo l'elaborazione del batch) | Molto bassa (da millisecondi a secondi per richiesta) | Estremamente bassa (quasi istantanea, nessun hop di rete) |
Volume di dati | Set di dati di grandi dimensioni (ad es. terabyte) | Eventi/richieste individuali | Richieste/eventi singoli (on-device) |
Flusso dei dati | I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti | Ogni richiesta inviata al cloud, elaborata e restituita | Dati elaborati on-device, risultati utilizzati on-device |
Casi d'uso tipici | Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica | Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale | Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale |
Vantaggi principali | Conveniente per attività di grandi dimensioni e non urgenti | Reattività immediata per le app rivolte agli utenti | Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti |
Funzionalità
Inferenza batch
Inferenza in tempo reale
Inferenza Edge
Località principale
Cloud (data center)
Cloud (data center)
Dispositivo locale (come smartphone, sensore IoT, robot)
Latenza/reattività
Elevata (previsioni restituite dopo l'elaborazione del batch)
Molto bassa (da millisecondi a secondi per richiesta)
Estremamente bassa (quasi istantanea, nessun hop di rete)
Volume di dati
Set di dati di grandi dimensioni (ad es. terabyte)
Eventi/richieste individuali
Richieste/eventi singoli (on-device)
Flusso dei dati
I dati vengono inviati al cloud, elaborati e i risultati vengono restituiti
Ogni richiesta inviata al cloud, elaborata e restituita
Dati elaborati on-device, risultati utilizzati on-device
Casi d'uso tipici
Categorizzazione di documenti su larga scala, analisi finanziaria overnight, manutenzione predittiva periodica
Consigli sui prodotti, chatbot, traduzione e avvisi di attività fraudolenta in tempo reale
Guida autonoma, videocamere smart, assistenti vocali offline, controllo qualità industriale
Vantaggi principali
Conveniente per attività di grandi dimensioni e non urgenti
Reattività immediata per le app rivolte agli utenti
Latenza minima, maggiore privacy, funzionalità offline, costi di larghezza di banda ridotti
L'inferenza AI sta trasformando i settori consentendo nuovi livelli di automazione, un processo decisionale più smart e applicazioni innovative. Per gli sviluppatori aziendali, ecco alcune aree critiche in cui l'inferenza offre un valore aziendale tangibile:
Google Cloud offre una suite completa di strumenti e servizi che aiutano gli sviluppatori e le organizzazioni a creare, eseguire il deployment e gestire i workload di inferenza AI in modo efficiente e su larga scala. Le funzionalità di inferenza sono profondamente integrate in molte offerte:
Prodotto Google Cloud | Approccio di inferenza supportato | Ideale quando | Esempio di caso d'uso di inferenza |
Tutti i tipi di inferenza (cloud e ibrida) | Ottieni il massimo controllo e la massima flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi. | Scala un modello di AI personalizzato ed eseguine il deployment per il rilevamento di anomalie in tempo reale in un sistema industriale complesso. | |
Inferenza cloud in tempo reale (serverless) | Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web. | Pubblica un modello di dimensioni medio-piccole per un'applicazione web in cui il traffico fluttua ampiamente, garantendo l'efficienza dei costi. | |
Inferenza cloud in tempo reale e batch | Ottieni un'accelerazione flessibile e ad alte prestazioni per un'ampia gamma di framework e modelli di AI. | Elabora rapidamente immagini ad alta risoluzione per la diagnostica medica o accelera la modellazione finanziaria complessa. | |
Inferenza cloud batch (data warehouse) | Esegui l'inferenza direttamente sui dati già presenti nel tuo data warehouse utilizzando SQL, eliminando lo spostamento dei dati. | Prevedi l'abbandono dei clienti direttamente sui dati CRM all'interno di BigQuery. | |
Inferenza cloud in tempo reale (attività specifiche) | Esegui facilmente l'embedding di funzionalità di AI avanzate (come visione artificiale, linguaggio, voce) nelle applicazioni senza creare o addestrare alcun modello. | Traduci automaticamente i messaggi di chat dei clienti in tempo reale o comprendi il sentiment dai post sui social media. | |
Inferenza cloud in tempo reale e batch (modelli di grandi dimensioni) | Ottieni le massime prestazioni e la massima efficienza in termini di costi quando gestisci modelli di deep learning molto grandi e complessi, in particolare modelli linguistici di grandi dimensioni (LLM). | Potenzia le risposte in tempo reale di un chatbot di AI generativa all'avanguardia. | |
Soluzioni Edge (come Coral, GDC Edge) | Inferenza Edge | Abilita latenza molto bassa, privacy avanzata o funzionalità offline eseguendo i modelli direttamente on-device. | Esegui il riconoscimento istantaneo degli oggetti su una videocamera smart senza inviare video al cloud. |
Preparazione dei dati per l'inferenza cloud batch | Elabora e prepara in modo efficiente grandi quantità di dati per job di inferenza batch su larga scala. | Pre-elabora petabyte di dati dei sensori prima di inserirli in un modello di manutenzione predittiva. |
Prodotto Google Cloud
Approccio di inferenza supportato
Ideale quando
Esempio di caso d'uso di inferenza
Tutti i tipi di inferenza (cloud e ibrida)
Ottieni il massimo controllo e la massima flessibilità per eseguire il deployment, gestire e scalare servizi di inferenza containerizzati personalizzati, spesso con hardware specializzato, in ambienti cloud o ibridi.
Scala un modello di AI personalizzato ed eseguine il deployment per il rilevamento di anomalie in tempo reale in un sistema industriale complesso.
Inferenza cloud in tempo reale (serverless)
Esegui il deployment di modelli containerizzati con scalabilità automatica fino a zero e prezzi pay-per-request, ideali per workload intermittenti e altamente variabili o per semplici servizi web.
Pubblica un modello di dimensioni medio-piccole per un'applicazione web in cui il traffico fluttua ampiamente, garantendo l'efficienza dei costi.
Inferenza cloud in tempo reale e batch
Ottieni un'accelerazione flessibile e ad alte prestazioni per un'ampia gamma di framework e modelli di AI.
Elabora rapidamente immagini ad alta risoluzione per la diagnostica medica o accelera la modellazione finanziaria complessa.
Inferenza cloud batch (data warehouse)
Esegui l'inferenza direttamente sui dati già presenti nel tuo data warehouse utilizzando SQL, eliminando lo spostamento dei dati.
Prevedi l'abbandono dei clienti direttamente sui dati CRM all'interno di BigQuery.
Inferenza cloud in tempo reale (attività specifiche)
Esegui facilmente l'embedding di funzionalità di AI avanzate (come visione artificiale, linguaggio, voce) nelle applicazioni senza creare o addestrare alcun modello.
Traduci automaticamente i messaggi di chat dei clienti in tempo reale o comprendi il sentiment dai post sui social media.
Inferenza cloud in tempo reale e batch (modelli di grandi dimensioni)
Ottieni le massime prestazioni e la massima efficienza in termini di costi quando gestisci modelli di deep learning molto grandi e complessi, in particolare modelli linguistici di grandi dimensioni (LLM).
Potenzia le risposte in tempo reale di un chatbot di AI generativa all'avanguardia.
Soluzioni Edge (come Coral, GDC Edge)
Inferenza Edge
Abilita latenza molto bassa, privacy avanzata o funzionalità offline eseguendo i modelli direttamente on-device.
Esegui il riconoscimento istantaneo degli oggetti su una videocamera smart senza inviare video al cloud.
Preparazione dei dati per l'inferenza cloud batch
Elabora e prepara in modo efficiente grandi quantità di dati per job di inferenza batch su larga scala.
Pre-elabora petabyte di dati dei sensori prima di inserirli in un modello di manutenzione predittiva.
Vertex AI è l'AI Platform unificata di Google Cloud. Fornisce strumenti completi per la creazione, il deployment e la gestione di modelli ML, il che lo rende il servizio di riferimento per la maggior parte delle esigenze di inferenza basata su cloud.
Funzionalità di Vertex AI | Approccio di inferenza | Ideale quando | Esempio di caso d'uso di inferenza |
Inferenza cloud in tempo reale | Esegui il deployment di modelli personalizzati e ottieni previsioni in tempo reale a bassa latenza da un endpoint gestito. | Consiglia immediatamente i prodotti a un utente che sta navigando su un sito web. | |
Inferenza cloud batch | Elabora set di dati di grandi dimensioni in modo conveniente senza bisogno di risultati in tempo reale. | Analizza tutte le transazioni dei clienti di ieri per rilevare i pattern di attività fraudolenta. | |
Inferenza cloud in tempo reale e batch (AI generativa) | Sfrutta rapidamente potenti modelli preaddestrati per attività AI generativa o comune senza doverli addestrare da zero. | Genera testi di marketing, riassumi documenti lunghi o crea snippet di codice. |
Funzionalità di Vertex AI
Approccio di inferenza
Ideale quando
Esempio di caso d'uso di inferenza
Inferenza cloud in tempo reale
Esegui il deployment di modelli personalizzati e ottieni previsioni in tempo reale a bassa latenza da un endpoint gestito.
Consiglia immediatamente i prodotti a un utente che sta navigando su un sito web.
Inferenza cloud batch
Elabora set di dati di grandi dimensioni in modo conveniente senza bisogno di risultati in tempo reale.
Analizza tutte le transazioni dei clienti di ieri per rilevare i pattern di attività fraudolenta.
Inferenza cloud in tempo reale e batch (AI generativa)
Sfrutta rapidamente potenti modelli preaddestrati per attività AI generativa o comune senza doverli addestrare da zero.
Genera testi di marketing, riassumi documenti lunghi o crea snippet di codice.
Vuoi portare le tue competenze di inferenza AI a un livello superiore? Ecco alcune risorse preziose per aiutarti a scoprire di più e iniziare:
Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.