Modelos do Google

A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.

Para mais informações sobre todos os modelos e APIs de IA na Vertex AI, consulte Conhecer modelos de IA no Model Garden.

Modelos do Gemini

A tabela a seguir resume os modelos disponíveis na API Gemini: Para mais informações sobre a API, consulte a referência da API Gemini.

Para usar um modelo no console do Google Cloud, selecione o card do modelo no Model Garden:

Modelo Entradas Saídas Caso de uso Testar o modelo
Gemini 1.5 Flash
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF Texto Oferece velocidade e eficiência para apps de alto volume, de qualidade e econômicos. Testar o modelo Flash do Gemini 1.5
Gemini 1.5 Pro
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF Texto Oferece suporte a comandos de texto ou chat para uma resposta de texto ou código.
Oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.
Testar o modelo Gemini 1.5 Pro
Gemini 1.0 Pro
Texto Texto O modelo com melhor desempenho para uma ampla variedade de tarefas somente de texto. Acessar o card de modelo do Gemini 1.0 Pro
Gemini 1.0 Pro Vision
Texto, imagens, áudio, vídeo, vídeo com áudio, PDF Texto O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. Testar o modelo Gemini 1.0 Pro Vision

As informações a seguir fornecem detalhes sobre cada modelo do Gemini.

Gemini 1.5 Flash

Descrição

Um modelo multimodal projetado para aplicativos de alto volume e econômicos, que oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometem a qualidade.

Recursos

Capacidade Disponibilidade
Embasamento Sim (somente entrada de texto)
Ajuste Não
Instrução do sistema Sim. Consulte Usar as instruções de sistema.
Suporte a JSON Sim
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Máximo de tokens de entrada: 1.048.576
Máximo de tokens de saída: 8.192
Tamanho máximo de imagem bruta: 20 MB
Tamanho máximo da imagem codificada em base64: 7 MB
Máximo de imagens por comando: 3.000
Duração máxima do vídeo: 1 hora
Máximo de vídeos por comando: 10
Duração máxima do áudio: aproximadamente 8,4 horas
Máximo de áudios por comando: 1
Tamanho máximo do PDF: 30 MB
Dados de treinamento: até maio de 2024

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Versões estáveis

Modelo Flash 1.5 do Gemini Data da versão Data de desativação Destaques da versão do modelo
gemini-1.5-flash-002 24 de setembro de 2024 24 de setembro de 2025 Melhoria na qualidade geral do modelo com ganhos significativos nas seguintes categorias:
  • Veracidade e redução de alucinações de modelo.
  • Perguntas e respostas do Openbook para casos de uso de RAG.
  • Seguir instruções.
  • Compreensão multilíngue em 102 idiomas, principalmente em coreano, francês, alemão, espanhol, japonês, russo e chinês.
  • Geração de SQL.
  • Compreensão de áudio.
  • Entendimento de documentos.
  • Contexto longo.
  • Matemática e raciocínio.

O Gemini 1.5 Flash 002 usa a cota compartilhada dinâmica.

Às vezes, o gemini-1.5-flash-002 pode responder no seu idioma local, mesmo que o comando esteja escrito em outro idioma. Esse problema só se aplica a comandos que não são em inglês. Para atenuar esse problema, recomendamos adicionar o seguinte às instruções do sistema para garantir que o modelo responda no mesmo idioma do comando:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-flash-001 24 de maio de 2024 24 de maio de 2025 Versão inicial do Gemini 1.5 Flash.

Versões de visualização

Nome do modelo Nome do pré-lançamento Data de desativação
Gemini 1.5 Flash (pré-lançamento) gemini-1.5-flash-preview-0514 24 de Junho de 2024

Gemini 1.5 Pro

Descrição

Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Esse modelo oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.

Recursos

Capacidade Disponibilidade
Embasamento Sim (somente entrada de texto)
Ajuste Não
Instrução do sistema Sim. Consulte Usar as instruções de sistema.
Suporte a JSON Sim
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Máximo de tokens de entrada: 2.097.152
Máximo de tokens de saída: 8.192
Máximo de imagens por comando: 3.000
Duração máxima do vídeo (somente frames): aproximadamente uma hora
Duração máxima do vídeo (frame e áudio): aproximadamente 45 minutos
Máximo de vídeos por comando: 10
Duração máxima do áudio: aproximadamente 8,4 horas
Máximo de áudios por comando: 1
Tamanho máximo do PDF: 30 MB
Dados de treinamento: até maio de 2024

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Versões estáveis

Modelo Gemini 1.5 Pro Data da versão Data de desativação Destaques da versão do modelo
gemini-1.5-pro-002 24 de setembro de 2024 24 de setembro de 2025 Melhoria na qualidade geral do modelo com ganhos significativos nas seguintes categorias:
  • Veracidade e redução de alucinações de modelo.
  • Perguntas e respostas do Openbook para casos de uso de RAG.
  • Seguir instruções.
  • Compreensão multilíngue em 102 idiomas, principalmente em coreano, francês, alemão, espanhol, japonês, russo e chinês.
  • Geração de SQL.
  • Compreensão de áudio.
  • Entendimento de documentos.
  • Contexto longo.
  • Matemática e raciocínio.

O Gemini 1.5 Pro 002 usa a cota compartilhada dinâmica.

Às vezes, o gemini-1.5-pro-002 pode responder no seu idioma local, mesmo que o comando esteja escrito em outro idioma. Esse problema só se aplica a comandos que não são em inglês. Para atenuar esse problema, recomendamos adicionar o seguinte às instruções do sistema para garantir que o modelo responda no mesmo idioma do comando:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-pro-001 24 de maio de 2024 24 de maio de 2025 Versão inicial do Gemini 1.5 Pro.

Versões de visualização

Nome do modelo ID do modelo Data de desativação
Gemini 1.5 Pro (pré-lançamento) gemini-1.5-pro-preview-0514 24 de Junho de 2024
Gemini 1.5 Pro (pré-lançamento) gemini-1.5-pro-preview-0409 (aponta e usa gemini-1.5-pro-preview-0514) 14 de junho de 2023.

Gemini 1.0 Pro

Descrição

O modelo com melhor desempenho e recursos para uma ampla variedade de tarefas somente de texto. Esse modelo só aceita texto como entrada.

Recursos

Capacidade Disponibilidade
Embasamento Sim (somente entrada de texto)
Ajuste Sim. O ajuste supervisionado tem suporte para gemini-1.0-pro-002.
Instrução do sistema Sim. Compatível com gemini-1.0-pro-002. Consulte Usar as instruções de sistema.
Suporte a JSON Sim
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Máximo de tokens de entrada: 32.760
Máximo de tokens de saída: 8.192
Dados de treinamento: até fevereiro de 2023

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Versões estáveis

Modelo Gemini 1.0 Pro Data da versão Data de desativação
gemini-1.0-pro-001 15 de fevereiro de 2024 15 de fevereiro de 2025
gemini-1.0-pro-002 9 de abril de 2024 9 de Abril de 2025

Versões atualizadas automaticamente

Nome do modelo Nome atualizado automaticamente Versão estável de referência
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

Descrição

O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. O Gemini 1.0 Pro Vision oferece suporte a texto, imagem e vídeo como entradas.

Recursos

Capacidade Disponibilidade
Embasamento Não
Ajuste Não
Instrução do sistema Não
Suporte a JSON Não
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Máximo de tokens de entrada: 16.384
Máximo de tokens de saída: 2.048
Máximo de imagens por comando: 16
Duração máxima do vídeo: 2 minutos
Máximo de vídeos por comando: 1
Dados de treinamento: até fevereiro de 2023

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Versões estáveis

Modelo Pro Vision do Gemini 1.0 Data da versão Data de desativação
gemini-1.0-pro-vision-001 15 de fevereiro de 2024 15 de fevereiro de 2025

Alias atualizados automaticamente

Nome do modelo Nome atualizado automaticamente Versão estável de referência
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

Descrição

O modelo de texto mais eficiente do Google, otimizado para tarefas complexas, incluindo instruções, código e raciocínio. O Gemini 1.0 Ultra oferece suporte apenas a entrada de texto.

Recursos

Capacidade Disponibilidade
Embasamento Não
Ajuste Não
Instrução do sistema Não
Suporte a JSON Não
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Entrada máxima de tokens: 8.192
Saída máxima de tokens: 2.048

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Gemini 1.0 Ultra Vision

Descrição

O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a entradas de texto, imagens e vídeo.

Recursos

Capacidade Disponibilidade
Embasamento Não
Ajuste Não
Instrução do sistema Não
Suporte a JSON Não
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação
Entrada máxima de tokens: 8.192
Saída máxima de tokens: 2.048

Versões do modelo

Para mais informações sobre as versões do modelo, consulte Versões do modelo.

Suporte a idiomas no Gemini

  • Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:

    Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)

  • Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:

    Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)

Modelos Gemma

A tabela a seguir resume os modelos do Gemma.

Modelo Entradas Saídas Caso de uso Testar o modelo
Gemma
Detalhes do modelo
Texto Texto Um modelo de texto aberto, leve e de tamanho pequeno que oferece suporte à geração, resumo e extração de textos. Implantável em ambientes com recursos limitados. Teste o Gemma
CodeGemma
Detalhes do modelo
Texto, código, PDF Texto Uma coleção de modelos de código aberto leves criados com base no Gemma. Melhor para geração e preenchimento de código. Testar o CodeGemma
PaliGemma
Detalhes do modelo
Texto, imagens Texto Um modelo de visão-linguagem leve (VLM). Ideal para tarefas de legendagem de imagens e respostas a perguntas visuais. Testar o PaliGemma

Suporte a idiomas do Gemma

O Gemma só oferece suporte ao inglês.

Modelos de embeddings

A tabela a seguir resume os modelos disponíveis na API Embeddings.

Nome do modelo Descrição Especificações Testar o modelo
Embeddings para texto
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Detalhes do modelo
Retorna embeddings para entradas de texto em inglês.

Oferece suporte a ajuste supervisionado de modelos de Embeddings de texto, somente em inglês.
Entrada máxima de tokens: 3.072 (textembedding-gecko@001).
Outros: 2.048.

Dimensões de embedding: text-embedding-004: <=768.
Outros: 768.
Testar embeddings de texto
Embeddings para texto multilíngue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Detalhes do modelo
Retorna embeddings para entradas de texto de mais de 100 idiomas

Oferece suporte a ajuste supervisionado do modelo text-multilingual-embedding-002.
Compatível com cem idiomas.
Entrada máxima de tokens: 2.048.

Dimensões de embedding: text-multilingual-embedding-002: <=768.
Outros: 768.
Testar os embeddings de texto multilíngue
Embeddings para multimodal
(multimodalembedding)
Detalhes do modelo
Retorna o embedding de entradas de texto, imagem e vídeo para comparar o conteúdo em diferentes modelos.

Converte texto, imagem e vídeo no mesmo espaço vetorial. O vídeo só aceita 1.408 dimensões.
Somente em inglês
Entrada máxima de tokens: 32.
Tamanho máximo da imagem: 20 MB.
Duração máxima do vídeo: dois minutos.

Dimensões de incorporação: 128, 256, 512 ou 1.408 para entrada de texto e imagem, 1.408 para entrada de vídeo.
Testar embeddings para multimodal

Suporte a idiomas de incorporação

Os modelos de incorporação de texto multilíngue oferecem suporte aos seguintes idiomas:
africâner, albanês, amárico, árabe, armênio, azerbaijano, basco, bielorrusso, bengali, búlgaro, birmanês, catalão, cebuano, chichewa, chinês, córsico, checo, dinamarquês, holandês, inglês, esperanto, estoniano, filipino, finlandês, francês, galego, georgiano, alemão, grego, gujarati, crioulo haitiano, hauçá, havaiano, hebraico, hindi, hmong, húngaro, islandês, igbo, indonésio, irlandês, italiano, japonês, javanês, canarês, kázar, khmer, coreano, curdo, quirguiz, lao, latim, letão, lituano, luxemburguês, macedônio, malgaxe, malaio, malaiala, maltês, marati, mongol, nepalês, norueguês, pachto, persa, polonês, português, punjabi, romeno, russo, samoano, gaélico escocês, sardo, sebuano, sérvio, chona, sindi, cingalês, eslovaco, esloveno, somali, sotho, espanhol, sudanês, suaíli, sueco, tadjique, tâmil, télugo, tailandês, turco, ucraniano, urdu, uzbeque, vietnamita, galês, frísio ocidental, xhosa, ídiche, iorubá, zulu.

Modelo do Imagen

A tabela a seguir resume os modelos disponíveis na API Imagen:

Modelo Entradas Saídas Caso de uso Testar o modelo
Imagen
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001, imagegeneration@006, imagegeneration@005, imagegeneration@002)
Detalhes do modelo
Texto (geração), imagens (edição) Imagens Esse modelo oferece suporte à geração e edição de imagens para criar imagens de alta qualidade em segundos.

O recurso de edição oferece suporte à remoção e inserção de objetos, pintura externa e edição de produtos.
Testar o Imagen

Suporte a idiomas do Imagen 3

O Imagen 3 oferece suporte aos seguintes idiomas:
inglês, chinês, hindi, japonês, coreano, português e espanhol.

Modelo de preenchimento de código

A tabela a seguir resume os modelos disponíveis nas APIs Codey:

Modelo Entradas Saídas Caso de uso Testar o modelo
Codey para preenchimento de código
(code-gecko)
Detalhes do modelo
Programar em idiomas compatíveis Programar em idiomas compatíveis Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. Testar o Codey para preenchimento de código

Suporte ao idioma do modelo de preenchimento de código

O modelo de preenchimento de código oferece suporte ao idioma inglês.

Modelos MedLM

A tabela a seguir resume os modelos disponíveis na API MedLM:

Nome do modelo Descrição Especificações Testar o modelo
MedLM-medium (medlm-medium)
Detalhes do modelo
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA.

Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. Oferece uma capacidade de processamento melhor e inclui dados mais recentes do que o modelo medlm-large.
Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Teste o MedLM-medium
MedLM-large (medlm-large)
Detalhes do modelo
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA.

Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos.
Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 1.024
Testar o MedLM-large

Suporte à capacidade de processamento provisionada do MedLM

O MedLM-medium e o MedLM-large oferecem suporte ao volume de transferência provisionado. Consulte Modelos compatíveis.

Suporte a idiomas do MedLM

O modelo MedLM oferece suporte ao inglês.

Locais

Para conferir uma lista de locais em que esses modelos estão disponíveis, consulte IA generativa em locais da Vertex AI.

Versões do modelo

Para saber mais sobre as versões do modelo, consulte Versões do modelo.

Explorar todos os modelos no Model Garden

O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.

Acessar o Model Garden

Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.

A seguir