Modelli Google

Vertex AI include un elenco sempre più vasto di modelli di base che puoi testare, eseguire il deployment e personalizzarlo per l'uso nelle tue applicazioni basate sull'AI. Modelli di base sono ottimizzati per casi d'uso specifici e offerti a diversi prezzi consigliati. Questa pagina riassume i modelli disponibili nelle varie API e fornisce indicazioni su quali modelli scegliere in base al caso d'uso.

Per saperne di più su tutti i modelli di AI e le API su Vertex AI, consulta Esplorare i modelli di IA in Model Garden.

Modelli Gemini

La seguente tabella riassume i modelli disponibili in API Gemini. Per saperne di più sui dettagli dell'API, consulta la documentazione di riferimento dell'API Gemini.

Per esplorare un modello nella console Google Cloud, seleziona il modello corrispondente in Model Garden.

Modello Input Output Caso d'uso Prova il modello
Gemini 1.5 Flash
Testo, codice, immagini, audio, video, video con audio, PDF Testo Offre velocità ed efficienza per app a basso costo, di qualità e a volumi elevati. Prova il modello Gemini 1.5 Flash
Gemini 1.5 Pro
Testo, codice, immagini, audio, video, video con audio, PDF Testo Supporta prompt di testo o chat per una risposta di testo o codice.
Supporta la comprensione del contesto lungo fino al limite massimo di token di input.
Prova il modello Gemini 1.5 Pro
Gemini 1.0 Pro
Testo Testo Il modello con le prestazioni migliori per una vasta gamma di attività di solo testo. Vai alla scheda del modello Gemini 1.0 Pro
Gemini 1.0 Pro Vision
Testo, immagini, audio, video, video con audio, PDF Testo Il modello di comprensione di immagini e video con le migliori prestazioni per gestire una vasta gamma di applicazioni. Prova il modello Gemini 1.0 Pro Vision
Gemini 1.0 Ultra
Testo Testo Il modello di testo più potente, ottimizzato per attività complesse, come istruzioni, codice e ragionamento. Vai alla scheda del modello Gemini 1.0 Ultra
Gemini 1.0 Ultra Vision
Testo, codice, immagini, audio, video, video con audio, PDF Testo Il modello di visione multimodale più efficace. Ottimizzato per supportare testi, immagini e input video congiunti. Vai alla scheda del modello Gemini 1.0 Ultra Vision

Le seguenti informazioni forniscono dettagli per ogni modello Gemini.

Gemini 1.5 Flash

Descrizione

Un modello multimodale progettato per volumi elevati ed economici applicazioni in grado di offrire velocità ed efficienza per creare, per le applicazioni a basso costo, senza compromissioni sulla qualità.

Funzionalità

Capacità Disponibilità
Grounding Sì (solo input di testo)
Ottimizzazione No
Istruzione di sistema Sì. Consulta l'articolo Utilizzare le istruzioni di sistema.
Supporto JSON

Specifiche

Specifica
Numero massimo di token di input: 1.048.576
Numero massimo di token di output: 8192
Dimensioni massime delle immagini non elaborate: 20 MB
Dimensioni massime delle immagini con codifica Base64: 7 MB
Numero massimo di immagini per prompt: 3000
Durata massima del video: 1 ora
N. massimo di video per richiesta: 10
Durata massima dell'audio: circa 8,4 ore
Audio massimo per richiesta: 1
Dimensioni massime del PDF: 30 MB
Dati di addestramento: fino a maggio 2024

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Versioni stabili

Modello Gemini 1.5 Flash Data di uscita Data di interruzione
gemini-1.5-flash-001 24 maggio 2024 24 maggio 2025

Visualizza in anteprima le versioni

Nome modello Nome anteprima Data di interruzione
Gemini 1.5 Flash (anteprima) gemini-1.5-flash-preview-0514 24 giugno 2024

Gemini 1.5 Pro

Descrizione

Un modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF nei prompt di testo o chat di una risposta di testo o codice. Questo modello supporta comprensione di contesto lungo fino al limite massimo di token di input.

Funzionalità

Capacità Disponibilità
Grounding Sì (solo input di testo)
Ottimizzazione No
Istruzione di sistema Sì. Consulta l'articolo Utilizzare le istruzioni di sistema.
Supporto JSON

Specifiche

Specifica
Numero massimo di token di input: 2.097.152
Numero massimo di token di output: 8192
Numero massimo di immagini per prompt: 3000
Durata massima del video (solo frame): circa un'ora
Durata massima del video (frame e audio): circa 45 minuti
N. massimo di video per richiesta: 10
Durata massima dell'audio: circa 8,4 ore
Audio massimo per richiesta: 1
Dimensioni massime del PDF: 30 MB
Dati di addestramento: fino a maggio 2024

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Versioni stabili

Modello Gemini 1.5 Pro Data di uscita Data di interruzione
gemini-1.5-pro-001 24 maggio 2024 24 maggio 2025

Visualizza in anteprima le versioni

Nome modello ID modello Data di interruzione
Gemini 1.5 Pro (anteprima) gemini-1.5-pro-preview-0514 24 giugno 2024
Gemini 1.5 Pro (anteprima) gemini-1.5-pro-preview-0409 (rimanda a e utilizza gemini-1.5-pro-preview-0514) 14 giugno 2024

Gemini 1.0 Pro

Descrizione

Il modello con le prestazioni migliori con funzionalità per una vasta gamma di attività di solo testo. Questo modello supporta solo testo come input.

Funzionalità

Capacità Disponibilità
Grounding Sì (solo input di testo)
Ottimizzazione Sì. L'ottimizzazione supervisionata è supportata da gemini-1.0-pro-002.
Istruzione di sistema Sì. Supportato da gemini-1.0-pro-002. Consulta l'articolo Utilizzare le istruzioni di sistema.
Supporto JSON

Specifiche

Specifica
Numero massimo di token di input: 32.760
Numero massimo di token di output: 8192
Dati di addestramento: fino a febbraio 2023

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Versioni stabili

Modello Gemini 1.0 Pro Data di uscita Data di interruzione
gemini-1.0-pro-001 15 febbraio 2024 15 febbraio 2025
gemini-1.0-pro-002 9 aprile 2024 9 aprile 2025

Versioni aggiornate automaticamente

Nome modello Nome dell'aggiornamento automatico Versione stabile di riferimento
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

Descrizione

Il modello di comprensione di immagini e video con il rendimento migliore per gestire un'ampia diverse applicazioni. Gemini 1.0 Pro Vision supporta testo, immagine e video come input.

Funzionalità

Capacità Disponibilità
Grounding No
Ottimizzazione No
Istruzione di sistema No
Supporto JSON No

Specifiche

Specifica
Numero massimo di token di input: 16.384
Numero massimo di token di output: 2048
Numero massimo di immagini per prompt: 16
Durata massima del video: 2 minuti
N. massimo di video per richiesta: 1
Dati di addestramento: fino a febbraio 2023

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Versioni stabili

Modello Gemini 1.0 Pro Vision Data di uscita Data di interruzione
gemini-1.0-pro-vision-001 15 febbraio 2024 15 febbraio 2025

Alias aggiornati automaticamente

Nome modello Nome dell'aggiornamento automatico Versione stabile di riferimento
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

Descrizione

Il modello di testo più potente di Google, ottimizzato per attività complesse, tra cui istruzioni, codice e ragionamento. Gemini 1.0 Ultra supporta solo testo come input.

Funzionalità

Capacità Disponibilità
Grounding No
Ottimizzazione No
Istruzione di sistema No
Supporto JSON No

Specifiche

Specifica
Numero massimo di token inseriti: 8192
Output massimo di token: 2048

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Gemini 1.0 Ultra Vision

Descrizione

Il modello di visione multimodale più potente di Google, ottimizzato per supportare comune di testo, immagini e input video.

Funzionalità

Capacità Disponibilità
Grounding No
Ottimizzazione No
Istruzione di sistema No
Supporto JSON No

Specifiche

Specifica
Numero massimo di token inseriti: 8192
Output massimo di token: 2048

Versioni modello

Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.

Supporto dei linguaggi di Gemini

I modelli Gemini supportano le seguenti lingue:

Arabo (ar), bengalese (bn), Bulgaro (bg), Cinese semplificato e tradizionale (zh), croato (hr), Ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), Francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), Lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), Russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), Swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), Vietnamita (vi).

Modelli Gemma

La seguente tabella riassume i modelli Gemma.

Modello Input Output Caso d'uso Prova il modello
Gemma
Dettagli modello
Testo Testo Un modello di testo aperto leggero e di piccole dimensioni che supporta la generazione, il riassunto e l'estrazione del testo. Distribuibile in ambienti con risorse limitate. Prova Gemma
CodeGemma
Dettagli modello
Testo, codice, PDF Testo Una raccolta di modelli leggeri in codice aperto creati su Gemma. Ideale per la generazione e il completamento del codice. Prova CodeGemma
PaliGemma
Dettagli modello
Testo, immagini Testo Un modello di linguaggio di visione artificiale (VLM) leggero. Ideale per le didascalie delle immagini e per le attività di domande e risposte visive. Prova PaliGemma

Supporto delle lingue Gemma

Gemma supporta solo la lingua inglese.

Modelli di incorporamento

La tabella seguente riassume i modelli disponibili nell'API Embeddings.

Nome modello Descrizione Specifiche Prova il modello
Incorporamenti per il testo
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Dettagli modello
Restituisce gli incorporamenti per gli input di testo in inglese.

Supporti ottimizzazione supervisionata di incorporamenti per i modelli di testo, solo in inglese.
Numero massimo di token inseriti: 3072 (textembedding-gecko@001).
Altri: 2048.

Dimensioni di incorporamento: text-embedding-004: <=768.
Altre: 768.
Prova gli incorporamenti per il testo
Incorporamenti per testo multilingue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Dettagli modello
Restituisce gli incorporamenti per gli input di testo di oltre 100 lingue

Supporta l'ottimizzazione supervisionata del modello text-multilingual-embedding-002.
supporta 100 lingue diverse.
Numero massimo di token inseriti: 2048.

Dimensioni di incorporamento: text-multilingual-embedding-002: <=768.
Altro: 768.
Prova gli rappresentazioni distribuite per il testo multilingue
Incorporamenti per ambienti multimodali
(multimodalembedding)
Dettagli modello
Restituisce l'incorporamento per gli input di testo, immagine e video, per confrontare contenuti tra modelli diversi.

Converte testo, immagini e video nello stesso spazio vettoriale. Il video supporta solo le dimensioni 1408.
Solo in inglese
Inserimento massimo di token: 32.
Dimensioni massime delle immagini: 20 MB.
Durata massima del video: 2 minuti.

Dimensioni di incorporamento: 128, 256, 512 o 1408 per l'input di testo e immagine, 1408 per l'input video.
Prova gli rappresentazioni distribuite per il modello multimodale

Supporto del linguaggio degli incorporamenti

I modelli di incorporamento multilingue di testo supportano le seguenti lingue:
afrikaans, albanese, amarico, arabo, armeno, azero, basco Bielorusso, bengalese, bulgaro, birmano, catalano, Cebuano, chichewa, cinese, corso, ceco, danese, olandese, inglese, esperanto, estone, filippino, finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati, creolo haitiano, hausa, hawaiano, ebraico, hindi, hmong, ungherese, islandese, igbo, indonesiano, irlandese, italiano, giapponese, giavanese, kannada, Kazako, Khmer, coreano, curdo, Kirghiso, Laos, latino, lettone, lituano, lussemburghese, macedone, malgascio, malese, malayalam, maltese, maori, Marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco, Portoghese, punjabi, rumeno, russo, Samoano, gaelico scozzese, serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho spagnolo, sundanese, swahili, svedese, tagico, tamil, telugu, thailandese, turco, ucraino, urdu, uzbeco, vietnamita, gallese, frisone occidentale, xhosa, yiddish, yoruba, zulu.

Modello Imagen

La seguente tabella riassume i modelli disponibili nell'API Imagen:

Modello Input Output Caso d'uso Prova il modello
Immagine 2
(imagegeneration@006)
Dettagli modello
Testo (generazione), Immagini (modifica) Immagini Questo modello supporta la generazione e la modifica di immagini per creare di qualità delle immagini in pochi secondi.

La funzionalità di modifica supporta la rimozione e l'inserimento degli oggetti, l'outpainting e l'editing dei prodotti.
Prova Imagen 2

Supporto di Imagen 2

Imagen 2 supporta le seguenti lingue:
inglese, cinese, hindi, giapponese, coreano, portoghese e spagnolo.

Modello di completamento del codice

La tabella seguente riassume i modelli disponibili nelle API Codey:

Modello Input Output Caso d'uso Prova il modello
Codey per il completamento del codice
(code-gecko)
Dettagli modello
Codice nelle lingue supportate Codice nelle lingue supportate Un modello ottimizzato per suggerire il completamento del codice in base al contesto nel codice scritto. Prova Codey per il completamento del codice

Supporto del linguaggio del modello di completamento del codice

Il modello di completamento del codice supporta la lingua inglese.

Modelli MedLM

La seguente tabella riassume i modelli disponibili nell'API MedLM:

Nome modello Descrizione Specifiche Prova il modello
MedLM-medio (medlm-medium)
Dettagli modello
Una suite di modelli ottimizzati in campo medico e API conformi a HIPAA di Google Research.

Questo modello aiuta gli operatori sanitari una domanda medica attività di risposta e attività di riassunto per il settore sanitario e medico documenti. Offre una velocità effettiva migliore e include dati più recenti rispetto a il modello medlm-large.
Numero massimo di token (input + output): 32.768.
Numero massimo di token di output: 8192.
Prova MedLM-medium
MedLM-large (medlm-large)
Dettagli modello
Una suite di modelli ottimizzati in campo medico e API conformi a HIPAA di Google Research.

Questo modello aiuta gli operatori sanitari una domanda medica attività di risposta e attività di riassunto per il settore sanitario e medico documenti.
Numero massimo di token di input: 8192.
Numero massimo di token di output: 1024.
Prova MedLM-large

Supporto delle lingue MedLM

Il modello MedLM supporta la lingua inglese.

Località

Per un elenco delle località in cui sono disponibili questi modelli, vedi L'IA generativa nelle località di Vertex AI.

Versioni modello

Per scoprire di più sulle versioni dei modelli, vedi Versioni del modello.

Esplora tutti i modelli in Model Garden

Model Garden è una piattaforma che ti consente di scoprire, testare, personalizzare ed eseguire il deployment di asset e modelli OSS di proprietà di Google e selezionati. Per esplorare le API e i modelli di IA generativa disponibili su Vertex AI, vai su Model Garden nella console Google Cloud.

Vai a Model Garden

Per scoprire di più su Model Garden, inclusi i modelli e vedi le funzionalità di machine learning, Esplora i modelli di IA in Model Garden.

Passaggi successivi