Modelos do Google

A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.

Para mais informações sobre todos os modelos e APIs de IA na Vertex AI, consulte Conhecer modelos de IA no Model Garden.

Modelos do Gemini

A tabela a seguir resume os modelos disponíveis na API Gemini. Para mais informações sobre a API, consulte a referência da API Gemini.

Para usar um modelo no console do Google Cloud, selecione o card do modelo no Model Garden:

Modelo Entradas Saídas Caso de uso Testar o modelo
Gemini 2.0 Flash
gemini-2.0-flash-001
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF Texto, áudio (visualização particular) e imagens (visualização particular) Modelo de trabalho para todas as tarefas diárias. Excelente desempenho geral e compatibilidade com a API Live de streaming em tempo real. Testar o Gemini 2.0 Flash
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
Texto, imagens, vídeo, áudio, PDF Texto Melhor qualidade de modelo, especialmente para conhecimento de código e do mundo; contexto de 2 milhões. Testar o Gemini 2.0 Pro
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05
Texto, imagens, vídeo, áudio, PDF Texto Nossa oferta econômica para oferecer suporte a alta capacidade. Teste o Gemini 2.0 Flash-Lite
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
Texto, imagens Texto Fornece recursos de raciocínio mais fortes e inclui o processo de pensamento nas respostas. Teste o Gemini 2.0 Flash Thinking
Gemini 1.5 Flash
gemini-1.5-flash
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF Texto Oferece velocidade e eficiência para apps de alto volume, de qualidade e econômicos. Testar o Gemini 1.5 Flash
Gemini 1.5 Pro
gemini-1.5-pro
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF Texto Oferece suporte a comandos de texto ou chat para uma resposta de texto ou código.
Oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.
Testar o Gemini 1.5 Pro
Gemini 1.0 Pro
gemini-1.0-pro
Texto Texto O modelo com melhor desempenho para uma ampla variedade de tarefas somente de texto. Testar o Gemini 1.0 Pro
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
Texto, imagens, áudio, vídeo, vídeo com áudio, PDF Texto O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. Testar o Gemini 1.0 Pro Vision

As informações a seguir fornecem detalhes sobre cada modelo do Gemini.

Gemini 2.0 Flash

A próxima geração dos nossos modelos Gemini Flash. O Gemini 2.0 Flash oferece velocidade superior aos nossos modelos 1.5 e oferece suporte a uma variedade maior de recursos, como streaming bidirecional com a API Multimodal Live, geração de respostas multimodais e uso de ferramentas integradas.

Recursos

Capacidade Disponibilidade
Embasamento com a Pesquisa Google
Execução do código
Ajuste
Instrução do sistema Consulte Usar as instruções do sistema.
Geração controlada
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 1.048.576
Máximo de tokens de saída 8.192
Dados de treinamento Até junho de 2024

Gemini 2.0 Pro

O Gemini 2.0 Pro é nosso modelo mais avançado para programação e conhecimento mundial e tem uma janela de contexto de 2 milhões. O Gemini 2.0 Pro está disponível como um modelo experimental na Vertex AI e é um caminho de upgrade para usuários do 1.5 Pro que querem uma qualidade melhor ou que estão particularmente interessados em contexto e código longos.

Recursos

Capacidade Disponibilidade
Embasamento com a Pesquisa Google
Execução do código
Ajuste
Instrução do sistema Consulte Usar as instruções do sistema.
Suporte a JSON
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 2.097.152
Máximo de tokens de saída 8.192
Dados de treinamento Até junho de 2024

Gemini 2.0 Flash-Lite

O Gemini 2.0 Flash-Lite é nosso modelo Flash mais rápido e econômico. É um caminho de upgrade para usuários do Flash 1.5 que querem qualidade melhor pelo mesmo preço e velocidade.

Recursos

Capacidade Disponibilidade
Embasamento com a Pesquisa Google
Execução do código
Ajuste
Instrução do sistema Consulte Usar as instruções do sistema.
Suporte a JSON
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 1.048.576
Máximo de tokens de saída 8.192
Dados de treinamento Até junho de 2024

Gemini 2.0 Flash Thinking

O Gemini 2.0 Flash Thinking é um modelo de computação experimental de tempo de teste que foi treinado para gerar o "processo de pensamento" pelo qual o modelo passa como parte da resposta. Como resultado, o Flash Thinking tem capacidades de raciocínio mais fortes nas respostas do que o modelo básico do Gemini 2.0 Flash. Para mais informações, consulte a documentação do Gemini 2.0 Flash Thinking.

Recursos

Capacidade Disponibilidade
Embasamento
Ajuste
Instrução do sistema Consulte Usar as instruções do sistema.
Suporte a JSON
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 1.048.576
Máximo de tokens de saída 65.536
Dados de treinamento Até maio de 2024

Gemini 1.5 Flash

Um modelo multimodal projetado para aplicativos de alto volume e econômicos, que oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometem a qualidade.

Recursos

Capacidade Disponibilidade
Embasamento Somente entrada de texto
Ajuste
Instrução do sistema Consulte Usar as instruções do sistema.
Geração controlada
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 1.048.576
Máximo de tokens de saída 8.192
Tamanho máximo de imagem bruta 20 MB
Tamanho máximo da imagem codificada em base64 7 MB
Máximo de imagens por comando 3.000
Duração máxima do vídeo 1 hora
Máximo de vídeos por comando 10
Duração máxima do áudio aproximadamente 8,4 horas
Áudio máximo por comando 1
Tamanho máximo do PDF 30 MB
Dados de treinamento Até maio de 2024

Gemini 1.5 Pro

Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Esse modelo oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.

Recursos

Capacidade Disponibilidade
Embasamento Sim (somente entrada de texto)
Ajuste
Instrução do sistema Sim. Consulte Usar as instruções de sistema.
Suporte a JSON
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 2.097.152
Máximo de tokens de saída 8.192
Máximo de imagens por comando 3.000
Duração máxima do vídeo (somente frames) aproximadamente uma hora
Duração máxima do vídeo (frame e áudio) aproximadamente 45 minutos
Máximo de vídeos por comando 10
Duração máxima do áudio aproximadamente 8,4 horas
Áudio máximo por comando 1
Tamanho máximo do PDF 30 MB
Dados de treinamento Até maio de 2024

Gemini 1.0 Pro

O modelo com melhor desempenho e recursos para uma ampla variedade de tarefas somente de texto. Esse modelo só aceita texto como entrada.

Recursos

Capacidade Disponibilidade
Embasamento Sim (somente entrada de texto)
Ajuste Sim. O ajuste supervisionado tem suporte para gemini-1.0-pro-002.
Instrução do sistema Sim. Compatível com gemini-1.0-pro-002. Consulte Usar as instruções de sistema.
Suporte a JSON
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 32.760
Máximo de tokens de saída 8.192
Dados de treinamento Até fevereiro de 2023

Gemini 1.0 Pro Vision

O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. O Gemini 1.0 Pro Vision oferece suporte a texto, imagem e vídeo como entradas.

Recursos

Capacidade Disponibilidade
Embasamento
Ajuste
Instrução do sistema
Suporte a JSON
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 16.384
Máximo de tokens de saída 2.048
Máximo de imagens por comando 16
Duração máxima do vídeo 2 minutos
Máximo de vídeos por comando 1
Dados de treinamento Até fevereiro de 2023

Gemini 1.0 Ultra

O modelo de texto mais eficiente do Google, otimizado para tarefas complexas, incluindo instruções, código e raciocínio. O Gemini 1.0 Ultra oferece suporte apenas a entrada de texto.

Recursos

Capacidade Disponibilidade
Embasamento
Ajuste
Instrução do sistema
Suporte a JSON
Capacidade de processamento provisionada Sim. Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 8.192
Máximo de tokens de saída 2.048

Gemini 1.0 Ultra Vision

O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a entradas de texto, imagens e vídeo.

Recursos

Capacidade Disponibilidade
Embasamento
Ajuste
Instrução do sistema
Suporte a JSON
Capacidade de processamento provisionada Consulte Modelos compatíveis.

Especificações

Especificação Valor
Máximo de tokens de entrada 8.192
Máximo de tokens de saída 2.048

Suporte a idiomas no Gemini

  • Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:

    Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)

  • Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:

    Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)

Modelos Gemma

A tabela a seguir resume os modelos do Gemma.

Modelo Entradas Saídas Caso de uso Testar o modelo
Gemma
Detalhes do modelo
Texto Texto Um modelo de texto aberto, leve e de tamanho pequeno que oferece suporte à geração, resumo e extração de textos. Implantável em ambientes com recursos limitados. Teste o Gemma
CodeGemma
Detalhes do modelo
Texto, código, PDF Texto Uma coleção de modelos de código aberto leves criados com base no Gemma. Melhor para geração e preenchimento de código. Testar o CodeGemma
PaliGemma
Detalhes do modelo
Texto, imagens Texto Um modelo de visão-linguagem leve (VLM). Ideal para tarefas de legendagem de imagens e respostas a perguntas visuais. Testar o PaliGemma

Suporte a idiomas do Gemma

O Gemma só oferece suporte ao inglês.

Modelos de embeddings

A tabela a seguir resume os modelos disponíveis na API Embeddings.

Nome do modelo Descrição Especificações Testar o modelo
Embeddings para texto
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Detalhes do modelo
Retorna embeddings para entradas de texto em inglês.

Oferece suporte a ajuste supervisionado de modelos de Embeddings de texto, somente em inglês.
Entrada máxima de tokens: 3.072 (textembedding-gecko@001).
Outros: 2.048.

Dimensões de embedding: text-embedding-004: <=768.
Outros: 768.
Testar embeddings de texto
Embeddings para texto multilíngue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Detalhes do modelo
Retorna embeddings para entradas de texto de mais de 100 idiomas

Oferece suporte a ajuste supervisionado do modelo text-multilingual-embedding-002.
Compatível com cem idiomas.
Entrada máxima de tokens: 2.048.

Dimensões de embedding: text-multilingual-embedding-002: <=768.
Outros: 768.
Testar os embeddings de texto multilíngue
Embeddings para multimodal
(multimodalembedding)
Detalhes do modelo
Retorna o embedding de entradas de texto, imagem e vídeo para comparar o conteúdo em diferentes modelos.

Converte texto, imagem e vídeo no mesmo espaço vetorial. O vídeo só aceita 1.408 dimensões.
Somente em inglês
Entrada máxima de tokens: 32.
Tamanho máximo da imagem: 20 MB.
Duração máxima do vídeo: dois minutos.

Dimensões de incorporação: 128, 256, 512 ou 1.408 para entrada de texto e imagem, 1.408 para entrada de vídeo.
Testar embeddings para multimodal

Suporte a idiomas de incorporação

Os modelos de incorporação de texto multilíngue oferecem suporte aos seguintes idiomas:
africâner, albanês, amárico, árabe, armênio, azerbaijano, basco, bielorrusso, bengali, búlgaro, birmanês, catalão, cebuano, chichewa, chinês, córsico, checo, dinamarquês, holandês, inglês, esperanto, estoniano, filipino, finlandês, francês, galego, georgiano, alemão, grego, gujarati, crioulo haitiano, hauçá, havaiano, hebraico, hindi, hmong, húngaro, islandês, igbo, indonésio, irlandês, italiano, japonês, javanês, canarês, kázar, khmer, coreano, curdo, quirguiz, lao, latim, letão, lituano, luxemburguês, macedônio, malgaxe, malaio, malaiala, maltês, marati, mongol, nepalês, norueguês, pachto, persa, polonês, português, punjabi, romeno, russo, samoano, gaélico escocês, sardo, sebuano, sérvio, chona, sindi, cingalês, eslovaco, esloveno, somali, sotho, espanhol, sudanês, suaíli, sueco, tadjique, tâmil, télugo, tailandês, turco, ucraniano, urdu, uzbeque, vietnamita, galês, frísio ocidental, xhosa, ídiche, iorubá, zulu.

Modelo do Imagen

A tabela a seguir resume os modelos disponíveis na API Imagen:

Modelo Entradas Saídas Caso de uso Testar o modelo
Imagem 3
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001)

Imagem 2
(imagegeneration@006, imagegeneration@005)

Imagem
(imagegeneration@002)
Detalhes do modelo
Texto Imagens Esse modelo oferece suporte à geração e edição de imagens para criar imagens de alta qualidade em segundos. Isso inclui a geração de imagens usando aprendizado zero-shot. Testar o Imagen para geração de imagens
Imagem 3 (edição e personalização)
(imagen-3.0-capability-001)

Imagem 2 (edição)
(imagegeneration@006)

Imagem (edição)
imagegeneration@002)
Detalhes do modelo
Texto e imagens Imagens Esse modelo oferece suporte à edição de imagens e à geração de imagens personalizadas (com poucas fotos) para criar imagens de alta qualidade em segundos.

O recurso de edição oferece suporte à pintura (remoção ou inserção de objetos), pintura externa e edição de imagens de produtos.

A personalização oferece suporte ao aprendizado de poucas amostras, permitindo que você forneça imagens de referência para orientar a geração de imagens de saída. Esse modelo oferece suporte aos seguintes tipos de personalização: assunto (produto, pessoa e animal de estimação), estilo, personalização controlada (rabisco ou borda nítida) e personalização instruída (transferência de estilo).
Teste o Imagen para edição e personalização

Suporte a idiomas do Imagen 3

O Imagen 3 oferece suporte aos seguintes idiomas:
inglês, chinês, hindi, japonês, coreano, português e espanhol.

Modelo de preenchimento de código

A tabela a seguir resume os modelos disponíveis nas APIs Codey:

Modelo Entradas Saídas Caso de uso Testar o modelo
Codey para preenchimento de código
(code-gecko)
Detalhes do modelo
Programar em idiomas compatíveis Programar em idiomas compatíveis Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. Testar o Codey para preenchimento de código

Suporte ao idioma do modelo de preenchimento de código

O modelo de preenchimento de código oferece suporte ao idioma inglês.

Modelos MedLM

A tabela a seguir resume os modelos disponíveis na API MedLM:

Nome do modelo Descrição Especificações Testar o modelo
MedLM-medium (medlm-medium)
Detalhes do modelo
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA.

Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. Oferece uma capacidade de processamento melhor e inclui dados mais recentes do que o modelo medlm-large.
Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Teste o MedLM-medium
MedLM-large (medlm-large)
Detalhes do modelo
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA.

Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos.
Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 1.024
Testar o MedLM-large

Suporte à capacidade de processamento provisionada do MedLM

O MedLM-medium e o MedLM-large oferecem suporte ao volume de transferência provisionado. Consulte Modelos compatíveis.

Suporte a idiomas do MedLM

O modelo MedLM oferece suporte ao inglês.

Locais

Para conferir uma lista de locais em que esses modelos estão disponíveis, consulte IA generativa em locais da Vertex AI.

Versões do modelo

Para saber mais sobre as versões do modelo, consulte Versões do modelo.

Explorar todos os modelos no Model Garden

O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.

Acessar o Model Garden

Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.

A seguir