Panoramica dell'IA generativa su Vertex AI

L'IA generativa su Vertex AI (nota anche come genAI o IA generativa) ti dà accesso a molti modelli di IA generativa di grandi dimensioni che ti consentono di valutarli, ottimizzarli ed eseguirne il deployment per l'uso nelle tue applicazioni basate sull'IA. Questa pagina fornisce una panoramica del flusso di lavoro dell'IA generativa su Vertex AI, delle funzionalità e dei modelli disponibili e ti indirizza alle risorse per iniziare.

Flusso di lavoro dell'IA generativa

Il seguente diagramma mostra una panoramica generale del flusso di lavoro dell'AI generativa.

Diagramma del flusso di lavoro dell'IA generativa

Prompt

Prompt

Il flusso di lavoro dell'AI generativa in genere inizia con i prompt. Un prompt è una richiesta inviata a un modello di AI generativa per generare una risposta. A seconda del modello, un prompt può contenere testo, immagini, video, audio, documenti e altre modalità, o persino più modalità (multimodali).

La creazione di un prompt per ottenere la risposta desiderata dal modello è una pratica chiamata progettazione dei prompt. Sebbene la progettazione dei prompt sia un processo di prove ed errori, esistono principi e strategie di progettazione dei prompt che puoi utilizzare per sollecitare il modello a comportarsi nel modo desiderato. Vertex AI Studio offre uno strumento di gestione dei prompt per aiutarti a gestire i prompt.

Modelli di base

Modelli di base

I prompt vengono inviati a un modello di AI generativa per la generazione delle risposte. Vertex AI offre una varietà di modelli di base di IA generativa accessibili tramite un'API gestita, tra cui:

  • API Gemini: ragionamento avanzato, chat multiturno, generazione di codice e prompt multimodali.
  • API Imagen: generazione, modifica di immagini e didascalie visive.
  • MedLM: risposta a domande mediche e riepilogo. (GA privata)

I modelli si differenziano per dimensioni, modalità e costo. Puoi esplorare i modelli Google, nonché i modelli aperti e i modelli di partner di Google, in Model Garden.

Personalizzazione del modello

Personalizzazione del modello

Puoi personalizzare il comportamento predefinito dei modelli di base di Google in modo che generino in modo coerente i risultati desiderati senza utilizzare prompt complessi. Questo processo di personalizzazione è chiamato ottimizzazione del modello. L'ottimizzazione dei modelli consente di ridurre il costo e la latenza delle richieste, semplificando le richieste.

Vertex AI offre anche strumenti di valutazione dei modelli per aiutarti a valutare le prestazioni del tuo modello ottimizzato. Quando il modello ottimizzato è pronto per la produzione, puoi eseguirne il deployment in un endpoint e monitorare le prestazioni come nei flussi di lavoro MLOps standard.

Richiedi aumento

Potenziamento

Vertex AI offre diversi metodi di aumento delle richieste che consentono al modello di accedere ad API esterne e informazioni in tempo reale.

  • Grounding: collega le risposte del modello a una fonte attendibile, ad esempio i tuoi dati o la ricerca web, contribuendo a ridurre le allucinazioni.
  • RAG: collega i modelli a fonti di conoscenza esterne, come documenti e database, per generare risposte più accurate e informative.
  • Chiamate di funzioni: consente al modello di interagire con API esterne per ottenere informazioni in tempo reale ed eseguire attività reali.

Controllo delle citazioni

Controllo delle citazioni

Dopo aver generato la risposta, Vertex AI controlla se nella risposta devono essere incluse le citazioni. Se una quantità significativa del testo nella risposta proviene da una fonte specifica, questa fonte viene aggiunta ai metadati della citazione nella risposta.

IA responsabile e sicurezza

IA responsabile e sicurezza

L'ultimo livello di controlli che il prompt e la risposta devono superare prima di essere restituiti sono i filtri di sicurezza. Vertex AI controlla sia il prompt che la risposta per determinare in quale misura il prompt o la risposta appartengono a una categoria di sicurezza. Se la soglia viene superata per una o più categorie, la risposta viene bloccata e Vertex AI restituisce una risposta di riserva.

Risposta

Risposta

Se il prompt e la risposta superano i controlli del filtro di sicurezza, viene restituita la risposta. In genere, la risposta viene restituita tutta insieme. Tuttavia, puoi anche ricevere le risposte progressivamente durante la loro generazione abilitando il flusso.

API e modelli di IA generativa

I modelli di IA generativa disponibili in Vertex AI, detti anche modelli di base, sono classificati in base al tipo di contenuto. Questi contenuti includono testo, chat, immagine, codice, video, dati multimodali e incorporamenti. Ogni modello è esposto tramite un endpoint del publisher specifico per il tuo progetto Google Cloud, quindi non è necessario eseguire il deployment del modello di base, a meno che tu non debba ottimizzarlo per un caso d'uso specifico.

Offerte dell'API Gemini

L'API Vertex AI Gemini contiene gli endpoint del publisher per i modelli Gemini sviluppati da Google DeepMind.

  • Gemini 1.5 Pro (anteprima) supporta i prompt multimodali. Nelle richieste dei prompt puoi includere testo, immagini, audio, video e file PDF e ricevere risposte di testo o codice. Gemini 1.5 Pro (anteprima) è in grado di elaborare raccolte di immagini più grandi, documenti di testo più grandi e video più lunghi rispetto a Gemini 1.0 Pro Vision.
  • Gemini 1.0 Pro è progettato per gestire attività in linguaggio naturale, chat di codice e testo in più passaggi e generazione di codice.
  • Gemini 1.0 Pro Vision supporta i prompt multimodali. Nelle richieste di prompt puoi includere testo, immagini, video e PDF e ricevere risposte testuali o in codice.

La seguente tabella mostra alcune differenze tra i modelli Gemini per aiutarti a scegliere quello più adatto a te:

Modello Gemini Modalità Finestra di contesto
Gemini 1.0 Pro / Gemini 1.0 Pro Vision
  • Testo, codice, PDF (Gemini 1.0 Pro Vision)
  • Fino a 16 immagini
  • Video fino a 2 minuti
  • 8.192 token in
  • 2048 token in uscita
Gemini 1.5 Pro (anteprima)
  • Testo, codice, immagini, audio, video, PDF
  • Fino a 3000 immagini
  • Audio fino a 8,4 ore
  • Video con audio fino a 1 ora
  • 1 milione di token in
  • 8192 token esauriti

Offerte dell'API PaLM

L'API Vertex AI PaLM contiene gli endpoint del publisher per il modello Pathways Language Model 2 (PaLM 2) di Google, ovvero modelli linguistici di grandi dimensioni (LLM) che generano testo e codice in risposta ai prompt in linguaggio naturale.

  • L'API PaLM per il testo è ottimizzata per attività linguistiche come classificazione, riepilogo ed estrazione delle entità.
  • L'API PaLM per la chat è ottimizzata per la chat multi-turno, in cui il modello tiene traccia dei messaggi precedenti nella chat e li utilizza come contesto per generare nuove risposte.

Altre offerte di IA generativa

  • L'incorporamento del testo genera incorporamenti vettoriali per il testo di input. Gli incorporamenti possono essere usati per attività come ricerca semantica, suggerimenti, classificazione e rilevamento di outlier.

  • L'incorporamento multimodale genera incorporamenti vettoriali basati su input di immagini e testo. Questi incorporamenti possono essere utilizzati in un secondo momento per altre attività successive come la classificazione delle immagini o i suggerimenti sui contenuti.

  • Imagen, il nostro modello di base da testo a immagine, ti consente di generare e personalizzare immagini di livello professionale su larga scala.

  • I modelli partner sono un elenco selezionato di modelli di AI generativa sviluppati dalle aziende partner di Google. Questi modelli di AI generativa vengono offerti come API gestite. Ad esempio, Anthropic offre i suoi modelli Claude come servizio su Vertex AI.

  • I modelli aperti, come Llama, sono disponibili per il deployment su Vertex AI o altre piattaforme.

  • MedLM è una famiglia di modelli di base perfezionati per il settore sanitario.

Certificazioni e controlli di sicurezza

Vertex AI supporta CMEK, Controlli di servizio VPC, Residency dei dati e Access Transparency. Esistono alcune limitazioni per le funzionalità dell'IA generativa. Per saperne di più, consulta Controlli di sicurezza dell'IA generativa.

Inizia