A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.
Para mais informações sobre todos os modelos e APIs de IA na Vertex AI, consulte Conhecer modelos de IA no Model Garden.
Modelos do Gemini
A tabela a seguir resume os modelos disponíveis na API Gemini. Para mais informações sobre a API, consulte a referência da API Gemini.
Para usar um modelo no console do Google Cloud, selecione o card do modelo no Model Garden:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Gemini 1.5 Flash |
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | Oferece velocidade e eficiência para apps de alto volume, de qualidade e econômicos. | Testar o modelo Flash do Gemini 1.5 |
Gemini 1.5 Pro |
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | Oferece suporte a comandos de texto ou chat para uma resposta de texto ou código. Oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada. |
Testar o modelo Gemini 1.5 Pro |
Gemini 1.0 Pro |
Texto | Texto | O modelo com melhor desempenho para uma ampla variedade de tarefas somente de texto. | Acessar o card de modelo do Gemini 1.0 Pro |
Gemini 1.0 Pro Vision |
Texto, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. | Testar o modelo Gemini 1.0 Pro Vision |
As informações a seguir fornecem detalhes sobre cada modelo do Gemini.
Gemini 1.5 Flash
Descrição
Um modelo multimodal projetado para aplicativos de alto volume e econômicos, que oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometem a qualidade.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Sim (somente entrada de texto) |
Ajuste | Sim |
Instrução do sistema | Sim. Consulte Usar as instruções de sistema. |
Suporte a JSON | Sim |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Máximo de tokens de entrada: 1.048.576 |
Máximo de tokens de saída: 8.192 |
Tamanho máximo de imagem bruta: 20 MB |
Tamanho máximo da imagem codificada em base64: 7 MB |
Máximo de imagens por comando: 3.000 |
Duração máxima do vídeo: 1 hora |
Máximo de vídeos por comando: 10 |
Duração máxima do áudio: aproximadamente 8,4 horas |
Máximo de áudios por comando: 1 |
Tamanho máximo do PDF: 30 MB |
Dados de treinamento: até maio de 2024 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Versões estáveis
Modelo Flash 1.5 do Gemini | Data da versão | Data de desativação | Destaques da versão do modelo |
---|---|---|---|
gemini-1.5-flash-002 | 24 de setembro de 2024 | 24 de setembro de 2025 | Melhoria na qualidade geral do modelo com ganhos significativos nas seguintes
categorias:
O Gemini 1.5 Flash 002 usa a cota compartilhada dinâmica. Às vezes, o gemini-1.5-flash-002 pode responder no seu idioma local, mesmo que o comando esteja escrito em outro idioma. Esse problema só se aplica a comandos que não são em inglês. Para atenuar esse problema, recomendamos adicionar o seguinte às instruções do sistema para garantir que o modelo responda no mesmo idioma do comando:
|
gemini-1.5-flash-001 | 24 de maio de 2024 | 24 de maio de 2025 | Versão inicial do Gemini 1.5 Flash. |
Versões de visualização
Nome do modelo | Nome do pré-lançamento | Data de desativação |
---|---|---|
Gemini 1.5 Flash (pré-lançamento) | gemini-1.5-flash-preview-0514 |
24 de Junho de 2024 |
Gemini 1.5 Pro
Descrição
Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Esse modelo oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Sim (somente entrada de texto) |
Ajuste | Sim |
Instrução do sistema | Sim. Consulte Usar as instruções de sistema. |
Suporte a JSON | Sim |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Máximo de tokens de entrada: 2.097.152 |
Máximo de tokens de saída: 8.192 |
Máximo de imagens por comando: 3.000 |
Duração máxima do vídeo (somente frames): aproximadamente uma hora |
Duração máxima do vídeo (frame e áudio): aproximadamente 45 minutos |
Máximo de vídeos por comando: 10 |
Duração máxima do áudio: aproximadamente 8,4 horas |
Máximo de áudios por comando: 1 |
Tamanho máximo do PDF: 30 MB |
Dados de treinamento: até maio de 2024 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Versões estáveis
Modelo Gemini 1.5 Pro | Data da versão | Data de desativação | Destaques da versão do modelo |
---|---|---|---|
gemini-1.5-pro-002 | 24 de setembro de 2024 | 24 de setembro de 2025 | Melhoria na qualidade geral do modelo com ganhos significativos nas seguintes
categorias:
O Gemini 1.5 Pro 002 usa a cota compartilhada dinâmica. Às vezes, o gemini-1.5-pro-002 pode responder no seu idioma local, mesmo que o comando esteja escrito em outro idioma. Esse problema só se aplica a comandos que não são em inglês. Para atenuar esse problema, recomendamos adicionar o seguinte às instruções do sistema para garantir que o modelo responda no mesmo idioma do comando:
|
gemini-1.5-pro-001 | 24 de maio de 2024 | 24 de maio de 2025 | Versão inicial do Gemini 1.5 Pro. |
Versões de visualização
Nome do modelo | ID do modelo | Data de desativação |
---|---|---|
Gemini 1.5 Pro (pré-lançamento) | gemini-1.5-pro-preview-0514 |
24 de Junho de 2024 |
Gemini 1.5 Pro (pré-lançamento) | gemini-1.5-pro-preview-0409 (aponta e usa
gemini-1.5-pro-preview-0514 ) |
14 de junho de 2023. |
Gemini 1.0 Pro
Descrição
O modelo com melhor desempenho e recursos para uma ampla variedade de tarefas somente de texto. Esse modelo só aceita texto como entrada.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Sim (somente entrada de texto) |
Ajuste | Sim. O ajuste supervisionado tem suporte para gemini-1.0-pro-002. |
Instrução do sistema | Sim. Compatível com gemini-1.0-pro-002. Consulte Usar as instruções de sistema. |
Suporte a JSON | Sim |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Máximo de tokens de entrada: 32.760 |
Máximo de tokens de saída: 8.192 |
Dados de treinamento: até fevereiro de 2023 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Versões estáveis
Modelo Gemini 1.0 Pro | Data da versão | Data de desativação |
---|---|---|
gemini-1.0-pro-001 | 15 de fevereiro de 2024 | 9 de abril de 2025 |
gemini-1.0-pro-002 | 9 de abril de 2024 | 9 de Abril de 2025 |
Versões atualizadas automaticamente
Nome do modelo | Nome atualizado automaticamente | Versão estável de referência |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
Descrição
O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. O Gemini 1.0 Pro Vision oferece suporte a texto, imagem e vídeo como entradas.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Não |
Ajuste | Não |
Instrução do sistema | Não |
Suporte a JSON | Não |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Máximo de tokens de entrada: 16.384 |
Máximo de tokens de saída: 2.048 |
Máximo de imagens por comando: 16 |
Duração máxima do vídeo: 2 minutos |
Máximo de vídeos por comando: 1 |
Dados de treinamento: até fevereiro de 2023 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Versões estáveis
Modelo Pro Vision do Gemini 1.0 | Data da versão | Data de desativação |
---|---|---|
gemini-1.0-pro-vision-001 | 15 de fevereiro de 2024 | 9 de abril de 2025 |
Alias atualizados automaticamente
Nome do modelo | Nome atualizado automaticamente | Versão estável de referência |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
Descrição
O modelo de texto mais eficiente do Google, otimizado para tarefas complexas, incluindo instruções, código e raciocínio. O Gemini 1.0 Ultra oferece suporte apenas a entrada de texto.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Não |
Ajuste | Não |
Instrução do sistema | Não |
Suporte a JSON | Não |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Entrada máxima de tokens: 8.192 |
Saída máxima de tokens: 2.048 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Gemini 1.0 Ultra Vision
Descrição
O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a entradas de texto, imagens e vídeo.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Não |
Ajuste | Não |
Instrução do sistema | Não |
Suporte a JSON | Não |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação |
---|
Entrada máxima de tokens: 8.192 |
Saída máxima de tokens: 2.048 |
Versões do modelo
Para mais informações sobre as versões do modelo, consulte Versões do modelo.
Suporte a idiomas no Gemini
Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:
Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)
Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:
Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)
Modelos Gemma
A tabela a seguir resume os modelos do Gemma.
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Gemma Detalhes do modelo |
Texto | Texto | Um modelo de texto aberto, leve e de tamanho pequeno que oferece suporte à geração, resumo e extração de textos. Implantável em ambientes com recursos limitados. | Teste o Gemma |
CodeGemma Detalhes do modelo |
Texto, código, PDF | Texto | Uma coleção de modelos de código aberto leves criados com base no Gemma. Melhor para geração e preenchimento de código. | Testar o CodeGemma |
PaliGemma Detalhes do modelo |
Texto, imagens | Texto | Um modelo de visão-linguagem leve (VLM). Ideal para tarefas de legendagem de imagens e respostas a perguntas visuais. | Testar o PaliGemma |
Suporte a idiomas do Gemma
O Gemma só oferece suporte ao inglês.
Modelos de embeddings
A tabela a seguir resume os modelos disponíveis na API Embeddings.
Nome do modelo | Descrição | Especificações | Testar o modelo |
---|---|---|---|
Embeddings para texto ( textembedding-gecko@001, )Detalhes do modelo |
Retorna embeddings para entradas de texto em inglês.
Oferece suporte a ajuste supervisionado de modelos de Embeddings de texto, somente em inglês. |
Entrada máxima de tokens: 3.072 (textembedding-gecko@001 ).Outros: 2.048. Dimensões de embedding: text-embedding-004 : <=768. Outros: 768. |
Testar embeddings de texto |
Embeddings para texto multilíngue ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Detalhes do modelo |
Retorna embeddings para entradas de texto de mais de 100 idiomas
Oferece suporte a ajuste supervisionado do modelo text-multilingual-embedding-002 . Compatível com cem idiomas. |
Entrada máxima de tokens: 2.048. Dimensões de embedding: text-multilingual-embedding-002 : <=768. Outros: 768. |
Testar os embeddings de texto multilíngue |
Embeddings para multimodal(multimodalembedding) Detalhes do modelo |
Retorna o embedding de entradas de texto, imagem e vídeo para comparar o conteúdo em diferentes modelos. Converte texto, imagem e vídeo no mesmo espaço vetorial. O vídeo só aceita 1.408 dimensões. Somente em inglês |
Entrada máxima de tokens: 32. Tamanho máximo da imagem: 20 MB. Duração máxima do vídeo: dois minutos. Dimensões de incorporação: 128, 256, 512 ou 1.408 para entrada de texto e imagem, 1.408 para entrada de vídeo. |
Testar embeddings para multimodal |
Suporte a idiomas de incorporação
Os modelos de incorporação de texto multilíngue oferecem suporte aos seguintes idiomas:
africâner, albanês, amárico, árabe, armênio, azerbaijano, basco,
bielorrusso, bengali, búlgaro, birmanês, catalão, cebuano, chichewa, chinês,
córsico, checo, dinamarquês, holandês, inglês, esperanto, estoniano, filipino,
finlandês, francês, galego, georgiano, alemão, grego, gujarati,
crioulo haitiano, hauçá, havaiano, hebraico, hindi, hmong, húngaro,
islandês, igbo, indonésio, irlandês, italiano, japonês, javanês, canarês,
kázar, khmer, coreano, curdo, quirguiz, lao, latim, letão, lituano,
luxemburguês, macedônio, malgaxe, malaio, malaiala, maltês, marati,
mongol, nepalês, norueguês, pachto, persa, polonês,
português, punjabi, romeno, russo, samoano, gaélico escocês,
sardo, sebuano,
sérvio, chona, sindi, cingalês, eslovaco, esloveno, somali, sotho,
espanhol, sudanês, suaíli, sueco, tadjique, tâmil, télugo, tailandês,
turco, ucraniano, urdu, uzbeque, vietnamita, galês, frísio ocidental,
xhosa, ídiche, iorubá, zulu.
Modelo do Imagen
A tabela a seguir resume os modelos disponíveis na API Imagen:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Imagen ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 ,
imagegeneration@006 ,
imagegeneration@005 ,
imagegeneration@002 )Detalhes do modelo |
Texto (geração), imagens (edição) | Imagens | Esse modelo oferece suporte à geração e edição de imagens para criar imagens de alta qualidade em segundos.
O recurso de edição oferece suporte à remoção e inserção de objetos, pintura externa e edição de produtos. |
Testar o Imagen |
Suporte a idiomas do Imagen 3
O Imagen 3 oferece suporte aos seguintes idiomas:
inglês, chinês, hindi, japonês, coreano, português e espanhol.
Modelo de preenchimento de código
A tabela a seguir resume os modelos disponíveis nas APIs Codey:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Codey para preenchimento de código ( code-gecko ) Detalhes do modelo |
Programar em idiomas compatíveis | Programar em idiomas compatíveis | Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. | Testar o Codey para preenchimento de código |
Suporte ao idioma do modelo de preenchimento de código
O modelo de preenchimento de código oferece suporte ao idioma inglês.
Modelos MedLM
A tabela a seguir resume os modelos disponíveis na API MedLM:
Nome do modelo | Descrição | Especificações | Testar o modelo |
---|---|---|---|
MedLM-medium (medlm-medium )Detalhes do modelo |
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. Oferece uma capacidade de processamento melhor e inclui dados mais recentes do que o modelo medlm-large . |
Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 |
Teste o MedLM-medium |
MedLM-large (medlm-large )Detalhes do modelo |
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. |
Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 1.024 |
Testar o MedLM-large |
Suporte à capacidade de processamento provisionada do MedLM
O MedLM-medium e o MedLM-large oferecem suporte ao volume de transferência provisionado. Consulte Modelos compatíveis.
Suporte a idiomas do MedLM
O modelo MedLM oferece suporte ao inglês.
Locais
Para conferir uma lista de locais em que esses modelos estão disponíveis, consulte IA generativa em locais da Vertex AI.
Versões do modelo
Para saber mais sobre as versões do modelo, consulte Versões do modelo.
Explorar todos os modelos no Model Garden
O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.
Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.
A seguir
- Confira um tutorial de início rápido usando o Vertex AI Studio ou a API Vertex AI.
- Saiba como testar comandos de texto.
- Saiba como testar comandos de chat.
- Confira modelos pré-treinados no Model Garden.
- Saiba como ajustar um modelo de fundação.
- Saiba mais sobre as práticas recomendadas de IA responsável e os filtros de segurança da Vertex AI.
- Saiba como controlar o acesso a modelos específicos no Model Garden usando uma política de organização do Model Garden.