Informações do modelo

A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.

Para saber mais sobre todos os modelos e APIs de IA na Vertex AI, consulte Explorar modelos e APIs de IA.

APIs do modelo de fundação

A Vertex AI tem as seguintes APIs de modelo de fundação:

  • API Gemini (texto multimodal, imagem, áudio, vídeo, PDF, código e chat)
  • API PaLM (texto, chat e embeddings)
  • APIs Codey (geração de código, chat de código e preenchimento de código)
  • API Imagen (geração e edição de imagens, legendagem de imagens, resposta a perguntas visuais e incorporação multimodal)

Modelos de API Gemini

A tabela a seguir resume os modelos disponíveis na API Gemini:

Nome do modelo Descrição Propriedades do modelo Suporte ao ajuste
Gemini 1.5 Pro (Pré-lançamento)
(gemini-1.5-pro)
Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. O Gemini 1.5 Pro oferece suporte à compreensão de contextos longos, com até 1 milhão de tokens. Total máximo de tokens (entrada e saída): 1 milhão
Máximo de tokens de saída: 8.192
Tamanho máximo da imagem bruta: 20 MB
Tamanho máximo da imagem codificada em base64: 7 MB
Máximo de imagens por comando: 3.000
Duração máxima do vídeo: 1 hora
Máximo de vídeos por comando: 10
Duração máxima do áudio: aproximadamente 8,4 horas
Máximo de áudio por comando: 1
Tamanho máximo do PDF: 50 MB
Dados de treinamento: até abril de 2024
Supervisionado: não
RLHF: não
Destilação: não
Gemini 1.0 Pro
(gemini-1.0-pro)
Projetado para processar tarefas de linguagem natural, chat de código e texto com várias interações e geração de código. Use o Gemini 1.0 Pro para solicitações que contenham apenas texto. Máximo de tokens (entrada e saída): 32.760
Máximo de tokens de saída: 8.192
Dados de treinamento: até fevereiro de 2023
Supervisionado: sim
RLHF: não
Destilação: não
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
Modelo multimodal compatível com a adição de imagem, PDF e vídeo em comandos de texto para uma resposta de texto ou código. Use os comandos multimodais do Gemini 1.0 Pro Vision. Máximo de tokens (entrada e saída): 16.384
Máximo de tokens de saída: 2.048
Tamanho máximo da imagem: sem limite
Máximo de imagens por solicitação: 16
Duração máxima do vídeo: 2 minutos
Máximo de vídeos por comando: 1
Dados de treinamento: até fevereiro de 2023
Supervisionado: não
RLHF: não
Destilação: não
Gemini 1.0 Ultra (GA com lista de permissões) O modelo multimodal mais eficiente do Google, otimizado para tarefas complexas, incluindo instrução, código e raciocínio, com suporte para vários idiomas. O Gemini 1.0 Ultra já está disponível para todos os usuários (GA, na sigla em inglês) apenas para alguns clientes. Entrada máxima de tokens: 8.192
Saída máxima de tokens: 2.048
Supervisionado: não
RLHF: não
Destilação: não
Gemini 1.0 Ultra Vision (GA com lista de permissões) O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a texto, imagens, vídeos e chat com vários turnos. O Gemini 1.0 Ultra Vision está disponível para todos os usuários para um conjunto selecionado de clientes. Entrada máxima de tokens: 8.192
Saída máxima de tokens: 2.048
Supervisionado: não
RLHF: não
Destilação: não

Modelos da API PaLM

A tabela a seguir resume os modelos disponíveis na API PaLM:

Nome do modelo Descrição Propriedades do modelo Suporte ao ajuste
PaLM 2 para texto
(text-bison)
Ajustado para seguir instruções de linguagem natural e adequado para várias tarefas de linguagem, como classificação, resumo e extração. Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 1.024
Dados de treinamento: até fevereiro de 2023
Supervisionado: sim
RLHF: sim (Prévia)
Destilação: não
PaLM 2 para texto (text-unicorn) O modelo de texto mais avançado na família de modelos do PaLM para uso com tarefas complexas de linguagem natural. Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 1.024
Dados de treinamento: até fevereiro de 2023
Supervisionado: não
RLHF: não
Destilação: sim (Prévia)
PaLM 2 para texto 32k
(text-bison-32k)
(padrão): ajustado para seguir instruções de linguagem natural e adequado para várias tarefas de linguagem. Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Dados de treinamento: até agosto de 2023
Supervisionado: sim
RLHF: não
Destilação: não
PaLM 2 para chat
(chat-bison)
Sintonizado para casos de uso de conversa com vários turnos. Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 2.048
Dados de treinamento: até fevereiro de 2023
Máximo de turnos : 2.500
Supervisionado: sim
RLHF: não
Destilação: não
PaLM 2 para chat 32k
(chat-bison-32k)
Sintonizado para casos de uso de conversa com vários turnos. Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Dados de treinamento: até agosto de 2023
Máximo de turnos : 2.500
Supervisionado: sim
RLHF: não
Destilação: não
Embeddings para texto
(textembedding-gecko)
Retorna embeddings de modelo para entradas de texto. 3.072 tokens de entrada e gera incorporações vetoriais de 768 dimensões. Supervisionado: sim
RLHF: não
Destilação: não
Embeddings para texto multilíngue
(textembedding-gecko-multilingual)
Retorna embeddings de modelo para entradas de texto compatíveis com mais de 100 idiomas 3.072 tokens de entrada e gera incorporações vetoriais de 768 dimensões. Supervisionado: sim (Prévia)
RLHF: não
Destilação: não

Modelos de APIs Codey

A tabela a seguir resume os modelos disponíveis nas APIs Codey:

Nome do modelo Descrição Propriedades do modelo Suporte ao ajuste
Codey para geração de código
(code-bison)
Um modelo ajustado para gerar código com base em uma descrição de linguagem natural do código desejado. Por exemplo, ele pode gerar um teste de unidade para uma função. Máximo de tokens de entrada: 6.144
Máximo de tokens de saída: 1.024
Supervisionado: sim
RLHF: não
Destilação: não
Codey para geração de código 32k
(code-bison-32k)
Um modelo ajustado para gerar código com base em uma descrição de linguagem natural do código desejado. Por exemplo, ele pode gerar um teste de unidade para uma função. Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Supervisionado: sim
RLHF: não
Destilação: não
Codey para chat de código
(codechat-bison)
Um modelo ajustado para conversas do bot de chat que ajudam com perguntas relacionadas a códigos. Máximo de tokens de entrada: 6.144
Máximo de tokens de saída: 1.024
Supervisionado: sim
RLHF: não
Destilação: não
Codey para chat de código 32k
(codechat-bison-32k)
Um modelo ajustado para conversas do bot de chat que ajudam com perguntas relacionadas a códigos. Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Supervisionado: sim
RLHF: não
Destilação: não
Codey para preenchimento de código
(code-gecko)
Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. Máximo de tokens de entrada: 2.048
Máximo de tokens de saída: 64
Supervisionado: não
RLHF: não
Destilação: não

Modelos da API Imagen

A tabela a seguir resume os modelos disponíveis na API Imagen:

Nome do modelo Descrição Propriedades do modelo Suporte ao ajuste
Imagen para geração de imagens
(imagegeneration)
Esse modelo é compatível com a geração de imagens e pode criar recursos visuais de alta qualidade em segundos. Número máximo de solicitações por minuto por projeto: 100
Máximo de imagens geradas: 8
Imagem de base máxima (edição/aumento): 10 MB
Resolução da imagem gerada: 1024 x 1024 pixels
Supervisionado: não
RLHF: não
Embeddings para multimodal
(multimodalembedding)
Esse modelo gera vetores com base na entrada fornecida, o que pode incluir uma combinação de imagem e texto. Número máximo de solicitações por minuto por projeto: 120
Tamanho máximo do texto: 32 tokens
Idioma: inglês
Tamanho máximo da imagem: 20 MB
Supervisionado: não
RLHF: não
Legendas de imagens
(imagetext)
O modelo que é compatível com legendas de imagens. Esse modelo gera uma legenda a partir de uma imagem fornecida com base no idioma especificado. Número máximo de solicitações por minuto por projeto: 500
Idiomas: inglês, francês, alemão, italiano, espanhol
Tamanho máximo da imagem: 10 MB
Número máximo de legendas: 3
Supervisionado: não
RLHF: não
Resposta visual a perguntas (VQA)
(imagetext)
Um modelo compatível com imagens de perguntas e respostas. Número máximo de solicitações por minuto por projeto: 500
Idiomas: inglês
Tamanho máximo da imagem: 10 MB
Número máximo de respostas: 3
Supervisionado: não
RLHF: não

Modelos da API MedLM

A tabela a seguir resume os modelos disponíveis na API MedLM:

Nome do modelo Descrição Propriedades do modelo Suporte ao ajuste
MedLM-medium (medlm-medium) Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esses modelos ajudam os profissionais de saúde com perguntas e respostas médicas (Perguntas e respostas) e resumindo documentos de saúde e médicos. Máximo de tokens (entrada + saída): 32.768
Máximo de tokens de saída: 8.192
Idiomas: inglês
Supervisionado: não
RLHF: não
MedLM-large (medlm-large) Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esses modelos ajudam os profissionais de saúde com perguntas e respostas médicas (Perguntas e respostas) e resumindo documentos de saúde e médicos. Máximo de tokens de entrada: 8.192
Máximo de tokens de saída: 1.024
Idiomas: inglês
Supervisionado: não
RLHF: não

Suporte ao idioma

A API PaLM da Vertex AI e a API Vertex AI Gemini estão com disponibilidade geral (GA, na sigla em inglês) para os seguintes idiomas:

  • Árabe (ar)
  • Bengalês (bn)
  • Búlgaro (bg)
  • Chinês (simplificado e tradicional) (zh)
  • Croata (hr)
  • República Tcheca (cs)
  • Coreano (da)
  • Holandês (nl)
  • Inglês (en)
  • Estoniano (et)
  • Finlandês (fi)
  • Francês (fr)
  • Alemão (de)
  • Grego (el)
  • Hebraico (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonésio (id)
  • Italiano (it)
  • Japonês (ja)
  • Coreano (ko)
  • Letão (lv)
  • Lituano (lt)
  • Norueguês (no)
  • Polonês (pl)
  • Português (pt)
  • Romeno (ro)
  • Russo (ru)
  • Sérvio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Espanhol (es)
  • Suaíli (sw)
  • Sueco (sv)
  • Tailandês (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)

Para acessar outros idiomas, entre em contato com seu representante do Google Cloud.

Explorar todos os modelos no Model Garden

O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.

Acessar o Model Garden

Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.

A seguir