Vertex AI include un elenco sempre più vasto di modelli di base che puoi testare, eseguire il deployment e personalizzarlo per l'uso nelle tue applicazioni basate sull'AI. Modelli di base sono ottimizzati per casi d'uso specifici e offerti a diversi prezzi consigliati. Questa pagina riassume i modelli disponibili nelle varie API e fornisce indicazioni su quali modelli scegliere in base al caso d'uso.
Per saperne di più su tutti i modelli di AI e le API su Vertex AI, consulta Esplorare i modelli di IA in Model Garden.
Modelli Gemini
La seguente tabella riassume i modelli disponibili in API Gemini. Per saperne di più sui dettagli dell'API, consulta la documentazione di riferimento dell'API Gemini.
Per esplorare un modello nella console Google Cloud, seleziona il modello corrispondente in Model Garden.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemini 1.5 Flash |
Testo, codice, immagini, audio, video, video con audio, PDF | Testo | Offre velocità ed efficienza per app a basso costo, di qualità e a volumi elevati. | Prova il modello Gemini 1.5 Flash |
Gemini 1.5 Pro |
Testo, codice, immagini, audio, video, video con audio, PDF | Testo | Supporta prompt di testo o chat per una risposta di testo o codice. Supporta la comprensione del contesto lungo fino al limite massimo di token di input. |
Prova il modello Gemini 1.5 Pro |
Gemini 1.0 Pro |
Testo | Testo | Il modello con le prestazioni migliori per una vasta gamma di attività di solo testo. | Vai alla scheda del modello Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
Testo, immagini, audio, video, video con audio, PDF | Testo | Il modello di comprensione di immagini e video con le migliori prestazioni per gestire una vasta gamma di applicazioni. | Prova il modello Gemini 1.0 Pro Vision |
Le seguenti informazioni forniscono dettagli per ogni modello Gemini.
Gemini 1.5 Flash
Descrizione
Un modello multimodale progettato per generare volumi elevati ed essere conveniente applicazioni in grado di offrire velocità ed efficienza per creare, per le applicazioni a basso costo, senza compromissioni sulla qualità.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | No |
Istruzione di sistema | Sì. Consulta l'articolo Utilizzare le istruzioni di sistema. |
Supporto JSON | Sì |
Specifiche
Specifica |
---|
Numero massimo di token di input: 1.048.576 |
Numero massimo di token di output: 8192 |
Dimensioni massime delle immagini non elaborate: 20 MB |
Dimensioni massime delle immagini con codifica Base64: 7 MB |
Numero massimo di immagini per prompt: 3000 |
Durata massima del video: 1 ora |
N. massimo di video per richiesta: 10 |
Durata massima dell'audio: circa 8,4 ore |
Audio massimo per richiesta: 1 |
Dimensioni massime del PDF: 30 MB |
Dati di addestramento: fino a maggio 2024 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.5 Flash | Data di uscita | Data di interruzione |
---|---|---|
gemini-1.5-flash-001 | 24 maggio 2024 | 24 maggio 2025 |
Visualizza in anteprima le versioni
Nome modello | Nome anteprima | Data di interruzione |
---|---|---|
Gemini 1.5 Flash (anteprima) | gemini-1.5-flash-preview-0514 |
24 giugno 2024 |
Gemini 1.5 Pro
Descrizione
Un modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF nei prompt di testo o chat di una risposta di testo o codice. Questo modello supporta comprensione di contesto lungo fino al limite massimo di token di input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | No |
Istruzione di sistema | Sì. Consulta l'articolo Utilizzare le istruzioni di sistema. |
Supporto JSON | Sì |
Specifiche
Specifica |
---|
Numero massimo di token di input: 2.097.152 |
Numero massimo di token di output: 8192 |
Numero massimo di immagini per prompt: 3000 |
Durata massima del video (solo frame): circa un'ora |
Durata massima del video (frame e audio): circa 45 minuti |
N. massimo di video per richiesta: 10 |
Durata massima dell'audio: circa 8,4 ore |
Audio massimo per richiesta: 1 |
Dimensioni massime del PDF: 30 MB |
Dati di addestramento: fino a maggio 2024 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.5 Pro | Data di uscita | Data di interruzione |
---|---|---|
gemini-1.5-pro-001 | 24 maggio 2024 | 24 maggio 2025 |
Visualizza in anteprima le versioni
Nome modello | ID modello | Data di interruzione |
---|---|---|
Gemini 1.5 Pro (anteprima) | gemini-1.5-pro-preview-0514 |
24 giugno 2024 |
Gemini 1.5 Pro (anteprima) | gemini-1.5-pro-preview-0409 (rimanda a e utilizza
gemini-1.5-pro-preview-0514 ) |
14 giugno 2024 |
Gemini 1.0 Pro
Descrizione
Il modello con le prestazioni migliori con funzionalità per una vasta gamma di attività di solo testo. Questo modello supporta solo testo come input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | Sì (solo input di testo) |
Ottimizzazione | Sì. L'ottimizzazione supervisionata è supportata da gemini-1.0-pro-002. |
Istruzione di sistema | Sì. Supportato da gemini-1.0-pro-002. Consulta l'articolo Utilizzare le istruzioni di sistema. |
Supporto JSON | Sì |
Specifiche
Specifica |
---|
Numero massimo di token di input: 32.760 |
Numero massimo di token di output: 8192 |
Dati di addestramento: fino a febbraio 2023 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.0 Pro | Data di uscita | Data di interruzione |
---|---|---|
gemini-1.0-pro-001 | 15 febbraio 2024 | 15 febbraio 2025 |
gemini-1.0-pro-002 | 9 aprile 2024 | 9 aprile 2025 |
Versioni aggiornate automaticamente
Nome modello | Nome dell'aggiornamento automatico | Versione stabile di riferimento |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
Descrizione
Il modello di comprensione di immagini e video con il rendimento migliore per gestire un'ampia diverse applicazioni. Gemini 1.0 Pro Vision supporta testo, immagine e video come input.
Funzionalità
Capacità | Disponibilità |
---|---|
Grounding | No |
Ottimizzazione | No |
Istruzione di sistema | No |
Supporto JSON | No |
Specifiche
Specifica |
---|
Numero massimo di token di input: 16.384 |
Numero massimo di token di output: 2048 |
Numero massimo di immagini per prompt: 16 |
Durata massima del video: 2 minuti |
N. massimo di video per richiesta: 1 |
Dati di addestramento: fino a febbraio 2023 |
Versioni modello
Per ulteriori informazioni sulle versioni del modello, consulta Versioni del modello.
Versioni stabili
Modello Gemini 1.0 Pro Vision | Data di uscita | Data di interruzione |
---|---|---|
gemini-1.0-pro-vision-001 | 15 febbraio 2024 | 15 febbraio 2025 |
Alias aggiornati automaticamente
Nome modello | Nome dell'aggiornamento automatico | Versione stabile di riferimento |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Supporto dei linguaggi di Gemini
Tutti i modelli Gemini sono in grado di comprendere e rispondere seguenti lingue:
Arabo (ar), bengalese (bn), Bulgaro (bg), Cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), Francese (fr), tedesco (de), greco (el), ebraico (iw), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), Lituano (lt), norvegese (no), polacco (pl), portoghese (pt), rumeno (ro), Russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), Swahili (sw), svedese (sv), thailandese (th), turco (tr), ucraino (uk), Vietnamita (vi)
Gemini 1.5 Pro e Gemini 1.5 Flash modelli possono capire e rispondere nelle seguenti aggiuntive lingue:
Afrikaans (af), amarico (am), assamese (as), azero (az), Bielorusso (be), Bosniaco (bs), Catalano (ca), Cebuano (ceb), corso (co), Gallese (cy), Dhivehi (dv), esperanto (eo), basco (eu), persiano (fa), Filippino (tagalog) (fil), frisone (fy), irlandese (ga), gaelico scozzese (gd), Galiziano (gl), gujarati (gu), Hausa (ha), hawaiano (haw), Hmong (hmn), Creolo haitiano (ht), armeno (hy), Igbo (ig), islandese (is), giavanese (jv), Georgiano (ka), Kazako (kk), Khmer (km), Kannada (kn), Krio (kri), Curdo (ku), Kirghiso (ky), Latino (la), Lussemburghese (lb), Laos (lo), Malgascio (mg), Maori (mi), Macedone (mk), Malayalam (ml), Mongolo (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malese (ms), Maltese (mt), Myanmar (Birmano) (my), nepalese (ne), Nyanja (Chichewa) (ny), Odia (oriya) (o), punjabi (pa), pashto (ps), sindhi (sd), Singalese (singalese) (si), Samoano (sm), Shona (sn), Somalo (so), albanese (sq), Sesotho (st), sundanese (su), tamil (ta), telugu (te), tagico (tg), Uiguro (ug), urdu (ur), uzbeco (uz), xhosa (xh), yiddish (yi), yoruba (yo), Zulu (zu)
Modelli Gemma
La seguente tabella riassume i modelli Gemma.
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Gemma Dettagli modello |
Testo | Testo | Un modello di testo aperto leggero e di piccole dimensioni che supporta la generazione, il riassunto e l'estrazione del testo. Distribuibile in ambienti con risorse limitate. | Prova Gemma |
CodeGemma Dettagli modello |
Testo, codice, PDF | Testo | Una raccolta di modelli leggeri in codice aperto basati su Gemma. Ideale per la generazione e il completamento del codice. | Prova CodeGemma |
PaliGemma Dettagli modello |
Testo, immagini | Testo | Un modello di linguaggio di visione artificiale (VLM) leggero. Ideale per le didascalie delle immagini e per le attività di domande e risposte visive. | Prova PaliGemma |
Supporto delle lingue Gemma
Gemma supporta solo la lingua inglese.
Modelli di incorporamento
La tabella seguente riassume i modelli disponibili nell'API Embeddings.
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
Incorporamenti per il testo ( textembedding-gecko@001, )Dettagli modello |
Restituisce gli incorporamenti per gli input di testo in inglese.
Supporti ottimizzazione supervisionata di incorporamenti per i modelli di testo, solo in inglese. |
Numero massimo di token inseriti: 3072 (textembedding-gecko@001 ).Altri: 2048. Dimensioni di incorporamento: text-embedding-004 : <=768. Altre: 768. |
Prova gli incorporamenti per il testo |
Incorporamenti per testo multilingue ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Dettagli modello |
Restituisce gli incorporamenti per gli input di testo di oltre 100 lingue
Supporta l'ottimizzazione supervisionata del modello text-multilingual-embedding-002 . supporta 100 lingue diverse. |
Numero massimo di token inseriti: 2048. Dimensioni di incorporamento: text-multilingual-embedding-002 : <=768. Altro: 768. |
Prova gli incorporamenti per il testo multilingue |
Incorporamenti per ambienti multimodali(multimodalembedding)
Dettagli modello
|
Restituisce l'incorporamento per gli input di testo, immagine e video, per confrontare contenuti tra modelli diversi. Converte testo, immagini e video nello stesso spazio vettoriale. Il video supporta solo le dimensioni 1408. Solo in inglese |
Inserimento massimo di token: 32. Dimensioni massime delle immagini: 20 MB. Durata massima del video: 2 minuti. Dimensioni di incorporamento: 128, 256, 512 o 1408 per l'input di testo e immagine, 1408 per l'input video. |
Prova gli rappresentazioni distribuite per il modello multimodale |
Supporto del linguaggio degli incorporamenti
I modelli di incorporamento multilingue di testo supportano le seguenti lingue:
afrikaans, albanese, amarico, arabo, armeno, azero, basco
Bielorusso, bengalese, bulgaro, birmano, catalano, Cebuano, chichewa, cinese,
corso, ceco, danese, olandese, inglese, esperanto, estone, filippino,
finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati,
creolo haitiano, hausa, hawaiano, ebraico, hindi, hmong, ungherese,
islandese, igbo, indonesiano, irlandese, italiano, giapponese, giavanese, kannada,
Kazako, Khmer, coreano, curdo, Kirghiso, Laos, latino, lettone, lituano,
lussemburghese, macedone, malgascio, malese, malayalam, maltese, maori,
Marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco,
Portoghese, punjabi, rumeno, russo, Samoano, gaelico scozzese,
serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho
spagnolo, sundanese, swahili, svedese, tagico, tamil, telugu, thailandese,
turco, ucraino, urdu, uzbeco, vietnamita, gallese, frisone occidentale,
xhosa, yiddish, yoruba, zulu.
Modello Imagen
La seguente tabella riassume i modelli disponibili nell'API Imagen:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Immagine 2 ( imagegeneration@006 )Dettagli modello |
Testo (generazione), Immagini (modifica) | Immagini | Questo modello supporta la generazione e la modifica di immagini per creare
di qualità delle immagini in pochi secondi.
La funzionalità di modifica supporta la rimozione e l'inserimento degli oggetti, l'outpainting e l'editing dei prodotti. |
Prova Imagen 2 |
Supporto di Imagen 2
Imagen 2 supporta le seguenti lingue:
inglese, cinese, hindi, giapponese, coreano, portoghese e spagnolo.
Modello di completamento del codice
La tabella seguente riassume i modelli disponibili nelle API Codey:
Modello | Input | Output | Caso d'uso | Prova il modello |
---|---|---|---|---|
Codey per il completamento del codice ( code-gecko ) Dettagli modello |
Codice nelle lingue supportate | Codice nelle lingue supportate | Un modello ottimizzato per suggerire il completamento del codice in base al contesto nel codice scritto. | Prova Codey per il completamento del codice |
Supporto del linguaggio del modello di completamento del codice
Il modello di completamento del codice supporta la lingua inglese.
Modelli MedLM
La tabella seguente riassume i modelli disponibili nell'API MedLM:
Nome modello | Descrizione | Specifiche | Prova il modello |
---|---|---|---|
MedLM-medio (medlm-medium )Dettagli modello |
Una suite di modelli ottimizzati in campo medico e API conformi a HIPAA
di Google Research. Questo modello aiuta gli operatori sanitari una domanda medica attività di risposta e attività di riassunto per il settore sanitario e medico documenti. Offre una velocità effettiva migliore e include dati più recenti rispetto a il modello medlm-large . |
Numero massimo di token (input + output): 32.768. Numero massimo di token di output: 8192. |
Prova MedLM-medium |
MedLM-large (medlm-large )Dettagli modello |
Una suite di modelli ottimizzati in campo medico e API conformi a HIPAA
di Google Research. Questo modello aiuta gli operatori sanitari una domanda medica attività di risposta e attività di riassunto per il settore sanitario e medico documenti. |
Numero massimo di token di input: 8192. Numero massimo di token di output: 1024. |
Prova MedLM-large |
Supporto delle lingue MedLM
Il modello MedLM supporta la lingua inglese.
Località
Per un elenco delle località in cui sono disponibili questi modelli, vedi L'IA generativa nelle località di Vertex AI.
Versioni modello
Per scoprire di più sulle versioni dei modelli, vedi Versioni del modello.
Esplora tutti i modelli in Model Garden
Model Garden è una piattaforma che ti consente di scoprire, testare, personalizzare ed eseguire il deployment di asset e modelli OSS di proprietà di Google e selezionati. Per esplorare le API e i modelli di IA generativa disponibili su Vertex AI, Model Garden nella console Google Cloud.
Per scoprire di più su Model Garden, inclusi i modelli e vedi le funzionalità di machine learning, Esplora i modelli di IA in Model Garden.
Passaggi successivi
- Prova un tutorial di avvio rapido utilizzando Vertex AI Studio o l'API Vertex AI.
- Scopri come testare i prompt di testo.
- Scopri come testare i prompt di chat.
- Esplora i modelli preaddestrati in Model Garden.
- Scopri come ottimizzare gli elementi di base modello.
- Scopri di più sulle best practice per l'IA responsabile e sulla sicurezza di Vertex AI filtri.