Vertex AI offre un elenco in crescita di modelli di base che puoi testare, implementare e personalizzare per l'utilizzo nelle tue applicazioni basate sull'IA. I modelli di base vengono ottimizzati per casi d'uso specifici e offerti a prezzi diversi. Questa pagina riassume i modelli disponibili nelle varie API e fornisce indicazioni su quali scegliere in base al caso d'uso.
Per ulteriori informazioni su tutti i modelli e le API di IA su Vertex AI, consulta Esplora i modelli di IA in Model Garden.
Modelli Gemini
La tabella seguente riassume i modelli disponibili nell'API Gemini. Per ulteriori informazioni sui dettagli dell'API, consulta il riferimento all'API Gemini.
Per esplorare un modello nella console Google Cloud, seleziona la relativa scheda nel Model Garden.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemini 1.5 Flash |
Testo, codice, immagini, audio, video, video con audio, PDF | Testo | Offre velocità ed efficienza per app di alto volume, di qualità e convenienti. | Prova il modello Gemini 1.5 Flash |
Gemini 1.5 Pro |
Testo, codice, immagini, audio, video, video con audio, PDF | Testo | Supporta i prompt di testo o chat per una risposta di testo o codice. Supporta la comprensione del contesto lungo fino al limite massimo di token di input. |
Prova il modello Gemini 1.5 Pro |
Gemini 1.0 Pro |
Testo | Testo | Il modello con il rendimento migliore per un'ampia gamma di attività di solo testo. | Vai alla scheda del modello Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
Testo, immagini, audio, video, video con audio, PDF | Testo | Il modello di comprensione di immagini e video con il rendimento migliore per gestire una vasta gamma di applicazioni. | Prova il modello Gemini 1.0 Pro Vision |
Le seguenti informazioni forniscono i dettagli per ogni modello Gemini.
Gemini 1.5 Flash
Descrizione
Un modello multimodale progettato per applicazioni di alto volume e convenienti, che offre velocità ed efficienza per creare applicazioni rapide e meno costose senza compromettere la qualità.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | Sì |
Istruzione di sistema | Sì. Consulta le istruzioni per l'utilizzo del sistema. |
Supporto JSON | Sì |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Token di input massimi: 1.048.576 |
Token di output massimi: 8192 |
Dimensioni massime delle immagini RAW: 20 MB |
Dimensioni massime delle immagini con codifica base64: 7 MB |
Numero massimo di immagini per prompt: 3000 |
Durata massima del video: 1 ora |
Numero massimo di video per prompt: 10 |
Durata massima dell'audio: circa 8,4 ore |
Audio massimo per prompt: 1 |
Dimensioni massime del PDF: 30 MB |
Dati di addestramento: fino a maggio 2024 |
Versioni modello
Per ulteriori informazioni sulle versioni dei modelli, consulta Versioni dei modelli.
Versioni stabili
Modello Gemini 1.5 Flash | Data di uscita | Data di ritiro | Punti salienti della versione del modello |
---|---|---|---|
gemini-1.5-flash-002 | 24 settembre 2024 | 24 settembre 2025 | Miglioramento della qualità generale del modello con incrementi significativi nelle seguenti categorie:
Gemini 1.5 Flash 002 utilizza la quota condivisa dinamica. A volte gemini-1.5-flash-002 può rispondere nella tua lingua locale, anche se il prompt è scritto in un'altra lingua. Questo problema riguarda solo i prompt in lingue diverse dall'inglese. Per attenuare il problema, ti consigliamo di aggiungere quanto segue alle istruzioni di sistema per assicurarti che il modello risponda nella stessa lingua del prompt:
|
gemini-1.5-flash-001 | 24 maggio 2024 | 24 maggio 2025 | Versione iniziale di Gemini 1.5 Flash. |
Versioni di anteprima
Nome modello | Nome dell'anteprima | Data di ritiro |
---|---|---|
Gemini 1.5 Flash (anteprima) | gemini-1.5-flash-preview-0514 |
24 giugno 2024 |
Gemini 1.5 Pro
Descrizione
Un modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF nei prompt di testo o chat per una risposta di testo o codice. Questo modello supporta la comprensione di contesti lunghi fino al limite massimo di token di input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | Sì |
Istruzione di sistema | Sì. Consulta le istruzioni per l'utilizzo del sistema. |
Supporto JSON | Sì |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Token di input massimi: 2.097.152 |
Token di output massimi: 8192 |
Numero massimo di immagini per prompt: 3000 |
Durata massima del video (solo frame): circa un'ora |
Durata massima del video (frame e audio): circa 45 minuti |
Numero massimo di video per prompt: 10 |
Durata massima dell'audio: circa 8,4 ore |
Audio massimo per prompt: 1 |
Dimensioni massime del PDF: 30 MB |
Dati di addestramento: fino a maggio 2024 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.5 Pro | Data di uscita | Data di ritiro | Punti salienti della versione del modello |
---|---|---|---|
gemini-1.5-pro-002 | 24 settembre 2024 | 24 settembre 2025 | Miglioramento della qualità generale del modello con incrementi significativi nelle seguenti categorie:
Gemini 1.5 Pro 002 utilizza la quota condivisa dinamica. A volte gemini-1.5-pro-002 può rispondere nella tua lingua locale, anche se il prompt è scritto in un'altra lingua. Questo problema riguarda solo i prompt in lingue diverse dall'inglese. Per attenuare il problema, ti consigliamo di aggiungere quanto segue alle istruzioni di sistema per assicurarti che il modello risponda nella stessa lingua del prompt:
|
gemini-1.5-pro-001 | 24 maggio 2024 | 24 maggio 2025 | Versione iniziale di Gemini 1.5 Pro. |
Versioni di anteprima
Nome modello | ID modello | Data di ritiro |
---|---|---|
Gemini 1.5 Pro (anteprima) | gemini-1.5-pro-preview-0514 |
24 giugno 2024 |
Gemini 1.5 Pro (anteprima) | gemini-1.5-pro-preview-0409 (indica e utilizza
gemini-1.5-pro-preview-0514 ) |
14 giugno 2024 |
Gemini 1.0 Pro
Descrizione
Il modello con il rendimento migliore, con funzionalità per un'ampia gamma di attività di solo testo. Questo modello supporta solo il testo come input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | Sì. L'ottimizzazione supervisionata è supportata da gemini-1.0-pro-002. |
Istruzione di sistema | Sì. Supportato da gemini-1.0-pro-002. Consulta la sezione Utilizzare le istruzioni di sistema. |
Supporto JSON | Sì |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Token di input massimi: 32.760 |
Token di output massimi: 8192 |
Dati di addestramento: fino a febbraio 2023 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.0 Pro | Data di uscita | Data di ritiro |
---|---|---|
gemini-1.0-pro-001 | 15 febbraio 2024 | 9 aprile 2025 |
gemini-1.0-pro-002 | 9 aprile 2024 | 9 aprile 2025 |
Versioni con aggiornamento automatico
Nome modello | Nome aggiornato automaticamente | Versione stabile a cui si fa riferimento |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
Descrizione
Il modello di comprensione di immagini e video con il rendimento migliore per gestire un'ampia gamma di applicazioni. Gemini 1.0 Pro Vision supporta testo, immagini e video come input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | No |
Ottimizzazione | No |
Istruzione di sistema | No |
Supporto JSON | No |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Token di input massimi: 16.384 |
Token di output massimi: 2048 |
Numero massimo di immagini per prompt: 16 |
Durata massima del video: 2 minuti |
Numero massimo di video per prompt: 1 |
Dati di addestramento: fino a febbraio 2023 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.0 Pro Vision | Data di uscita | Data di ritiro |
---|---|---|
gemini-1.0-pro-vision-001 | 15 febbraio 2024 | 9 aprile 2025 |
Alias aggiornati automaticamente
Nome modello | Nome aggiornato automaticamente | Versione stabile a cui si fa riferimento |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
Descrizione
Il modello di testo più avanzato di Google, ottimizzato per attività complesse, tra cui istruzioni, codice e ragionamento. Gemini 1.0 Ultra supporta solo il testo come input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | No |
Ottimizzazione | No |
Istruzione di sistema | No |
Supporto JSON | No |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Numero massimo di token di input: 8192 |
Numero massimo di token di output: 2048 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Gemini 1.0 Ultra Vision
Descrizione
Il modello di visione multimodale più capace di Google, ottimizzato per supportare input combinati di testo, immagini e video.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | No |
Ottimizzazione | No |
Istruzione di sistema | No |
Supporto JSON | No |
Throughput riservato | Sì. Consulta Modelli supportati. |
Specifiche
Specifica |
---|
Numero massimo di token di input: 8192 |
Numero massimo di token di output: 2048 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Supporto delle lingue di Gemini
Tutti i modelli di Gemini possono comprendere e rispondere nelle seguenti lingue:
Arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), vietnamita (vi)
I modelli Gemini 1.5 Pro e Gemini 1.5 Flash possono comprendere e rispondere nelle seguenti lingue aggiuntive:
Afrikaans (af), amarico (am), assamese (as), azero (az), bielorusso (be), bosniaco (bs), catalano (ca), cebuano (ceb), corso (co), gallese (cy), divehi (dv), esperanto (eo), basco (eu), persiano (fa), filippino (Tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), galiziano (gl), gujarati (gu), hausa (ha), hawaiano (haw), hmong (hmn), creolo haitiano (ht), armeno (hy), igbo (ig), islandese (is), giavanese (jv), georgiano (ka), kazako (kk), khmer (km), kannada (kn), krio (kri), curdo (ku), kirghizo (ky), latino (la), lussemburghese (lb), lao (lo), malgache (mg), maori (mi), macedone (mk), malayalam (ml), mongolo (mn), meiteilon (manipuri) (mni-Mtei), marathi (mr), malese (ms), maltese (mt), birmano (birmano) (my), nepalese (ne), nyanja (chichewa) (ny), odia (oriya) (or), punjabi (pa), pashto (ps), sindhi (sd), singalese (singalese) (si), samoano (sm), shona (sn), somalo (so), albanese (sq), sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), uiguro (ug), urdu (ur), uzbeko (uz), xhosa (xh), yiddish (yi), yoruba (yo), zulu (zu)
Modelli Gemma
La tabella seguente riassume i modelli Gemma.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemma Dettagli del modello |
Testo | Testo | Un modello di testo aperto di piccole dimensioni e leggero che supporta la generazione, il riepilogo e l'estrazione di testo. Possono essere implementati in ambienti con risorse limitate. | Provare Gemma |
CodeGemma Dettagli del modello |
Testo, codice, PDF | Testo | Una raccolta di modelli open source leggeri basati su Gemma. Ideale per la generazione e il completamento del codice. | Prova CodeGemma |
PaliGemma Dettagli del modello |
Testo, immagini | Testo | Un modello linguistico visivo (VLM) leggero. Ideale per attività di sottotitolazione delle immagini e di domanda e risposta visive. | Prova PaliGemma |
Supporto linguistico di Gemma
Gemma supporta solo la lingua inglese.
Modelli di embedding
La tabella seguente riassume i modelli disponibili nell'API Embeddings.
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
Embedding per il testo ( textembedding-gecko@001, )Dettagli del modello |
Restituisce gli incorporamenti per gli input di testo in inglese.
Supporta l'ottimizzazione supervisionata dei modelli Embedding per il testo, solo in inglese. |
Input massimo di token: 3072 (textembedding-gecko@001 ).Altri: 2048. Dimensioni di incorporamento: text-embedding-004 : <=768. Altro: 768. |
Prova gli incorporamenti per il testo |
Embedding per testo multilingue ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Dettagli del modello |
Restituisce gli incorporamenti per gli input di testo di oltre 100 lingue
Supporta la ottimizzazione supervisionata del modello text-multilingual-embedding-002 . Supporta 100 lingue. |
Input massimo di token: 2048. Dimensioni di incorporamento: text-multilingual-embedding-002 : <=768. Altri: 768. |
Prova gli incorporamenti per il testo multilingue |
Incorporamenti per il multimodale(multimodalembedding) Dettagli del modello |
Restituisce l'embedding per input di testo, immagini e video, per confrontare i contenuti in diversi modelli. Converte testo, immagini e video nello stesso spazio vettoriale. I video supportano solo 1408 dimensioni. Solo in inglese |
Input massimo di token: 32. Dimensioni massime delle immagini: 20 MB. Durata massima del video: 2 minuti. Dimensioni dell'embedding: 128, 256, 512 o 1408 per l'input di testo e immagini, 1408 per l'input video. |
Prova gli incorporamenti per il multimodale |
Supporto delle lingue degli elementi incorporati
I modelli di embedding multilingue di testo supportano le seguenti lingue:
Afrikaans, albanese, amarico, arabo, azero, basco,
bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, chichewa, cinese,
corso, ceco, danese, ebraico, estone, filippino,
finlandese, francese, gallese, georgiano, tedesco, greco, gujarati,
creolo haitiano, hausa, hawaiano, hindi, hmong, ungherese,
islandese, irlandese, indonesiano, italiano, giapponese, javanese, kannada,
kazako, khmer, coreano, curdo, kirghizo, lao, latino, lettone, lituano,
lussegno, macedone, malgascio, malayo, malayalam, maltese, maori,
marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco,
portoghese, punjabi, rumeno, russo, samoano, gaelico scozzese,
serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho,
spagnolo, sundanese, swahili, svedese, tagico, tamil, telugu, thai,
turco, ucraino, urdu, uzbeko, vietnamita, gallese, fiammingo occidentale,
xhosa, yiddish, yoruba, Zulu.
Modello Imagen
La seguente tabella riassume i modelli disponibili nell'API Imagen:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Imagen ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 ,
imagegeneration@006 ,
imagegeneration@005 ,
imagegeneration@002 )Dettagli del modello |
Testo (generazione), Immagini (modifica) | Immagini | Questo modello supporta la generazione e la modifica di immagini per creare immagini di alta qualità in pochi secondi.
La funzionalità di modifica supporta la rimozione e l'inserimento di oggetti, la pittura in primo piano e la modifica dei prodotti. |
Prova Imagen |
Supporto delle lingue di Imagen 3
Imagen 3 supporta le seguenti lingue:
inglese, cinese, hindi, giapponese, coreano, portoghese e spagnolo.
Modello di completamento del codice
La tabella seguente riassume i modelli disponibili nelle API Codey:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Codey per il completamento del codice ( code-gecko ) Dettagli del modello |
Codice nelle lingue supportate | Codice nelle lingue supportate | Un modello ottimizzato per suggerire il completamento del codice in base al contesto del codice scritto. | Prova Codey per il completamento del codice |
Supporto del linguaggio del modello di completamento del codice
Il modello di completamento automatico del codice supporta la lingua inglese.
Modelli MedLM
La tabella seguente riassume i modelli disponibili nell'API MedLM:
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
MedLM-medium (medlm-medium )Dettagli del modello |
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research. Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici. Offre una maggiore velocità in termini di throughput e include dati più recenti rispetto al modello medlm-large . |
Token massimi (input + output): 32.768. Numero massimo di token di output: 8192. |
Prova MedLM-medium |
MedLM-large (medlm-large )Dettagli del modello |
Una suite di API e modelli medicalmente ottimizzati conforme allo standard HIPAA sviluppata da Google Research. Questo modello aiuta i professionisti sanitari con attività di risposta alle domande mediche e di riepilogo per documenti sanitari e medici. |
Token di input massimi: 8192. Numero massimo di token di output: 1024. |
Prova MedLM-large |
Assistenza per il throughput riservato di MedLM
MedLM-medium e MedLM-large supportano il throughput riservato. Consulta Modelli supportati.
Supporto delle lingue di MedLM
Il modello MedLM supporta la lingua inglese.
Località
Per un elenco delle località in cui sono disponibili questi modelli, consulta Località dell'IA generativa su Vertex AI.
Versioni modello
Per scoprire di più sulle versioni del modello, consulta Versioni del modello.
Esplorare tutti i modelli in Model Garden
Model Garden è una piattaforma che ti aiuta a scoprire, testare, personalizzare ed eseguire il deployment di asset e modelli proprietari di Google e di alcuni modelli e asset OSS. Per esplorare i modelli e le API di IA generativa disponibili su Vertex AI, vai a Model Garden nella console Google Cloud.
Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorare i modelli di IA in Model Garden.
Passaggi successivi
- Prova un tutorial di avvio rapido utilizzando Vertex AI Studio o l'API Vertex AI.
- Scopri come testare i prompt di testo.
- Scopri come testare i prompt di chat.
- Esplora i modelli pre-addestrati in Model Garden.
- Scopri come ottimizzare un modello di base.
- Scopri di più sulle best practice di AI responsabile e sui filtri di sicurezza di Vertex AI.
- Scopri come controllare l'accesso a modelli specifici in Model Garden utilizzando un regolamento dell'organizzazione di Model Garden.