Vertex AI offre un elenco crescente di modelli di base che puoi testare, eseguire il deployment e personalizzare per l'uso nelle tue applicazioni basate sull'IA. I modelli di base sono ottimizzati per casi d'uso specifici e offerti a diversi prezzi consigliati. Questa pagina riassume i modelli disponibili nelle varie API e offre indicazioni sui modelli da scegliere in base al caso d'uso.
Per saperne di più su tutti i modelli IA e le API su Vertex AI, consulta Esplorare modelli IA e API.
API per modelli di base
Vertex AI dispone delle seguenti API dei modelli di base:
- API Gemini (dati multimodali, testo, codice e chat)
- API PaLM (testo, chat e incorporamenti)
- API Codey (generazione di codice, chat di codice e completamento del codice)
- API Imagen (generazione di immagini, modifica di immagini, didascalie delle immagini, risposta visiva alle domande e incorporamento multimodale)
Modelli API Gemini
La seguente tabella riassume i modelli disponibili nell'API Gemini:
Nome del modello | Description | Proprietà del modello | Assistenza per l'ottimizzazione |
---|---|---|---|
Gemini 1.0 Pro ( gemini-1.0-pro ) |
Progettata per gestire attività in linguaggio naturale, chat di testo e codice in più passaggi e generazione di codice. Utilizza Gemini 1.0 Pro per i prompt che contengono solo testo. | Numero massimo di token di output (input e output): 32.760 Numero massimo di token di output: 8192 Dati di addestramento: fino a febbraio 2023 |
Supervisionato: No RLHF: No Distillazione: No |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
Modello multimodale che supporta l'aggiunta di immagini e video in prompt di testo o chat per una risposta di testo o codice. Utilizza i prompt multimodali Gemini 1.0 Pro Vision. | Numero massimo di token totali (input e output): 16.384 Numero massimo di token di output: 2048 Dimensioni massime delle immagini: nessun limite Numero massimo di immagini per prompt: 16 Durata massima del video: 2 minuti Numero massimo di video per prompt: 1 Dati di addestramento: fino a febbraio 2023 |
Supervisionato: No RLHF: No Distillazione: No |
Gemini 1.0 Ultra (GA con lista consentita) | Il modello multimodale più avanzato di Google, ottimizzato per attività complesse tra cui istruzioni, codice e ragionamento, con supporto per più linguaggi. Gemini 1.0 Ultra è in disponibilità generale (GA) per un gruppo selezionato di clienti. | Numero massimo di token di input: 8192 Numero massimo di token di output: 2048 |
Supervisionato: No RLHF: No Distillazione: No |
Gemini 1.0 Ultra Vision (GA con lista consentita) | Il miglior modello di visione artificiale multimodale di Google, ottimizzato per supportare testo, immagini, video e chat multi-turno. Gemini 1.0 Ultra Vision è in disponibilità generale (GA) per un gruppo selezionato di clienti. | Numero massimo di token di input: 8192 Numero massimo di token di output: 2048 |
Supervisionato: No RLHF: No Distillazione: No |
Gemini 1.5 Pro (anteprima privata) | Modello multimodale di medie dimensioni di Google, ottimizzato per la scalabilità in un'ampia gamma di attività. Gemini 1.5 Pro supporta la comprensione del contesto lungo con un massimo di 1 milione di token. | Numero massimo di token di input: 1.000.000 Numero massimo di token di output: 8.192 Numero massimo di immagini: 300 Numero massimo di frame video: 3800 |
Supervisionato: No RLHF: No Distillazione: No |
Modelli di API PaLM
La seguente tabella riassume i modelli disponibili nell'API PaLM:
Nome del modello | Description | Proprietà del modello | Assistenza per l'ottimizzazione |
---|---|---|---|
PaLM 2 per il testo ( text-bison ) |
Ottimizzato per seguire le istruzioni del linguaggio naturale ed è adatto per una varietà di attività linguistiche, come classificazione, riassunto ed estrazione. | Numero massimo di token di input: 8192 Numero massimo di token di output: 1024 Dati di addestramento: fino a febbraio 2023 |
Supervisionato: Sì RLHF: Sì Distillazione: no |
PaLM 2 per il testo (text-unicorn ) |
Il modello di testo più avanzato della famiglia di modelli PaLM per l'utilizzo con attività complesse di elaborazione del linguaggio naturale. | Numero massimo di token di input: 8192 Numero massimo di token di output: 1024 Dati di addestramento: fino a febbraio 2023 |
Supervisionato: No RLHF: No Distillazione: Sì (anteprima) |
PaLM 2 per testo 32K ( text-bison-32k ) |
È ottimizzato per seguire le istruzioni del linguaggio naturale ed è adatto a una varietà di attività relative alle lingue. | Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192 Dati di addestramento: fino ad agosto 2023 |
Supervisionato: Sì RLHF: No Distillazione: No |
PaLM 2 per la chat ( chat-bison ) |
Ottimizzato per casi d'uso di conversazioni a turni multipli. | Numero massimo di token di input: 8192 Numero massimo di token di output: 2048 Dati di addestramento: fino a febbraio 2023 Numero massimo di turni : 2500 |
Supervisionato: Sì RLHF: No Distillazione: No |
PaLM 2 per Chat 32k ( chat-bison-32k ) |
Ottimizzato per casi d'uso di conversazioni a turni multipli. | Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192 Dati di addestramento: fino ad agosto 2023 Numero massimo di turni : 2500 |
Supervisionato: Sì RLHF: No Distillazione: No |
Incorporamenti per il testo ( textembedding-gecko ) |
Restituisce gli incorporamenti del modello per gli input di testo. | 3072 token di input e restituisce incorporamenti di 768-dimensionali di vettori. |
Supervisionato: Sì RLHF: No Distillazione: No |
Incorporamenti per il testo multilingue ( textembedding-gecko-multilingual ) |
Restituisce incorporamenti di modelli per input di testo che supportano oltre 100 lingue | 3072 token di input e restituisce incorporamenti di 768-dimensionali di vettori. |
Supervisionato: Sì
(anteprima) RLHF: No Distillazione: No |
Modelli di API Codey
La seguente tabella riassume i modelli disponibili nelle API Codey:
Nome del modello | Description | Proprietà del modello | Assistenza per l'ottimizzazione |
---|---|---|---|
Codey per la generazione del codice ( code-bison ) |
Un modello ottimizzato per generare codice in base a una descrizione in linguaggio naturale del codice desiderato. Ad esempio, può generare un test delle unità per una funzione. | Numero massimo di token di input: 6144 Numero massimo di token di output: 1024 |
Supervisionato: Sì RLHF: No Distillazione: No |
Codey per la generazione di codice 32k ( code-bison-32k ) |
Un modello ottimizzato per generare codice in base a una descrizione in linguaggio naturale del codice desiderato. Ad esempio, può generare un test delle unità per una funzione. | Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192 |
Supervisionato: Sì RLHF: No Distillazione: No |
Codey per la chat di codice ( codechat-bison ) |
un modello perfezionato per le conversazioni con chatbot che aiutano a risolvere le domande relative al codice. | Numero massimo di token di input: 6144 Numero massimo di token di output: 1024 |
Supervisionato: Sì RLHF: No Distillazione: No |
Codey per Code Chat 32k ( codechat-bison-32k ) |
un modello perfezionato per le conversazioni con chatbot che aiutano a risolvere le domande relative al codice. | Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192 |
Supervisionato: Sì RLHF: No Distillazione: No |
Codey per il completamento del codice ( code-gecko ) |
un modello perfezionato per suggerire il completamento del codice in base al contesto. | Numero massimo di token di input: 2048 Numero massimo di token di output: 64 |
Supervisionato: No RLHF: No Distillazione: No |
Modelli di API Imagen
La seguente tabella riassume i modelli disponibili nell'API Imagen:
Nome del modello | Description | Proprietà del modello | Assistenza per l'ottimizzazione |
---|---|---|---|
Imagen per la generazione di immagini ( imagegeneration ) | Questo modello supporta la generazione di immagini e può creare asset visivi di alta qualità in pochi secondi. | Numero massimo di richieste al minuto per progetto: 100 Numero massimo di immagini generate: 8 Massima immagine di base (modifica/upscaling): 10 MB Risoluzione dell'immagine generata: 1024x1024 pixel |
Supervisionato: no RLHF: No |
Incorporamenti per multimodale ( multimodalembedding ) | Questo modello genera vettori in base all'input fornito, che può includere una combinazione di immagine e testo. | Numero massimo di richieste al minuto per progetto: 120 Lunghezza massima del testo: 32 token Lingua: inglese Dimensioni massime delle immagini: 20 MB |
Supervisionato: no RLHF: No |
Sottotitolaggio delle immagini ( imagetext ) | Il modello che supporta le didascalie delle immagini. Questo modello genera una didascalia a partire da un'immagine da te fornita, in base alla lingua specificata. | Numero massimo di richieste al minuto per progetto: 500 Lingue: inglese, francese, tedesco, italiano, spagnolo Dimensione massima delle immagini: 10 MB Numero massimo di sottotitoli: 3 |
Supervisionato: no RLHF: No |
Risposta visiva alle domande - VQA ( imagetext ) | Modello che supporta le domande e le risposte basate su immagini. | Numero massimo di richieste al minuto per progetto: 500 Lingue: inglese Dimensione massima delle immagini: 10 MB Numero massimo di risposte: 3 |
Supervisionato: no RLHF: No |
Modelli di API MedLM
La seguente tabella riassume i modelli disponibili nell'API MedLM:
Nome del modello | Description | Proprietà del modello | Assistenza per l'ottimizzazione |
---|---|---|---|
MedLM-medium (medlm-medium ) | Una suite di API e modelli ottimizzati dal punto di vista medico e conformi alla normativa HIPAA basata su Google Research. Questi modelli aiutano gli operatori sanitari con le domande e le risposte (Domande e risposte) e il riepilogo dei documenti sanitari e medici. | Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 1024 Lingue: inglese |
Supervisionato: no RLHF: No |
MedLM-large (medlm-large ) | Una suite di API e modelli ottimizzati dal punto di vista medico e conformi alla normativa HIPAA basata su Google Research. Questi modelli aiutano gli operatori sanitari con le domande e le risposte (Domande e risposte) e il riepilogo dei documenti sanitari e medici. | Numero massimo di token di input: 8192 Numero massimo di token di output: 1024 Lingue: inglese |
Supervisionato: no RLHF: No |
Supporto dei linguaggi
L'API Vertex AI PaLM e l'API Vertex AI Gemini sono in disponibilità generale (GA) per le seguenti lingue:
- Arabo (
ar
) - Bengalese (
bn
) - Bulgaro (
bg
) - Cinese semplificato e tradizionale (
zh
) - Croato (
hr
) - Ceco (
cs
) - Danese (
da
) - Olandese (
nl
) - Inglese (
en
) - Estone (
et
) - Finlandese (
fi
) - Francese (
fr
) - Tedesco (
de
) - Greco (
el
) - Ebraico (
iw
) - hindi (
hi
) - Ungherese (
hu
) - Indonesiano (
id
) - Italiano (
it
) - Giapponese (
ja
) - Coreano (
ko
) - Lettone (
lv
) - Lituano (
lt
) - Norvegese (
no
) - Polacco (
pl
) - Portoghese (
pt
) - Rumeno (
ro
) - Russo (
ru
) - Serbo (
sr
) - Slovacco (
sk
) - Sloveno (
sl
) - Spagnolo (
es
) - swahili (
sw
) - Svedese (
sv
) - Thailandese (
th
) - Turco (
tr
) - Ucraino (
uk
) - Vietnamita (
vi
)
Per accedere ad altre lingue, contatta il tuo rappresentante Google Cloud.
Esplora tutti i modelli in Model Garden
Model Garden è una piattaforma che consente di scoprire, testare, personalizzare ed eseguire il deployment di modelli e asset OSS di proprietà di Google e selezionati. Per esplorare le API e i modelli di IA generativa disponibili su Vertex AI, vai a Model Garden nella console Google Cloud.
Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorazione dei modelli di IA in Model Garden.
Passaggi successivi
- Prova un tutorial di avvio rapido con Vertex AI Studio o l'API Vertex AI.
- Scopri come testare i prompt di testo.
- Scopri come testare le richieste di chat.
- Esplora i modelli preaddestrati in Model Garden.
- Scopri come ottimizzare un modello di base.
- Scopri le best practice per l'IA responsabile e i filtri di sicurezza di Vertex AI.