A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.
Para saber mais sobre todos os modelos e APIs de IA na Vertex AI, consulte Explorar modelos e APIs de IA.
APIs do modelo de fundação
A Vertex AI tem as seguintes APIs de modelo de fundação:
- API Gemini (texto multimodal, imagem, áudio, vídeo, PDF, código e chat)
- API PaLM (texto, chat e embeddings)
- APIs Codey (geração de código, chat de código e preenchimento de código)
- API Imagen (geração e edição de imagens, legendagem de imagens, resposta a perguntas visuais e incorporação multimodal)
Modelos de API Gemini
A tabela a seguir resume os modelos disponíveis na API Gemini:
Nome do modelo | Descrição | Propriedades do modelo | Suporte ao ajuste |
---|---|---|---|
Gemini 1.5 Pro (Pré-lançamento) ( gemini-1.5-pro ) |
Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. O Gemini 1.5 Pro oferece suporte à compreensão de contextos longos, com até 1 milhão de tokens. | Total máximo de tokens (entrada e saída): 1 milhão Máximo de tokens de saída: 8.192 Tamanho máximo da imagem bruta: 20 MB Tamanho máximo da imagem codificada em base64: 7 MB Máximo de imagens por comando: 3.000 Duração máxima do vídeo: 1 hora Máximo de vídeos por comando: 10 Duração máxima do áudio: aproximadamente 8,4 horas Máximo de áudio por comando: 1 Tamanho máximo do PDF: 50 MB Dados de treinamento: até abril de 2024 |
Supervisionado: não RLHF: não Destilação: não |
Gemini 1.0 Pro ( gemini-1.0-pro ) |
Projetado para processar tarefas de linguagem natural, chat de código e texto com várias interações e geração de código. Use o Gemini 1.0 Pro para solicitações que contenham apenas texto. | Máximo de tokens (entrada e saída): 32.760 Máximo de tokens de saída: 8.192 Dados de treinamento: até fevereiro de 2023 |
Supervisionado: sim RLHF: não Destilação: não |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
Modelo multimodal compatível com a adição de imagem, PDF e vídeo em comandos de texto para uma resposta de texto ou código. Use os comandos multimodais do Gemini 1.0 Pro Vision. | Máximo de tokens (entrada e saída): 16.384 Máximo de tokens de saída: 2.048 Tamanho máximo da imagem: sem limite Máximo de imagens por solicitação: 16 Duração máxima do vídeo: 2 minutos Máximo de vídeos por comando: 1 Dados de treinamento: até fevereiro de 2023 |
Supervisionado: não RLHF: não Destilação: não |
Gemini 1.0 Ultra (GA com lista de permissões) | O modelo multimodal mais eficiente do Google, otimizado para tarefas complexas, incluindo instrução, código e raciocínio, com suporte para vários idiomas. O Gemini 1.0 Ultra já está disponível para todos os usuários (GA, na sigla em inglês) apenas para alguns clientes. | Entrada máxima de tokens: 8.192 Saída máxima de tokens: 2.048 |
Supervisionado: não RLHF: não Destilação: não |
Gemini 1.0 Ultra Vision (GA com lista de permissões) | O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a texto, imagens, vídeos e chat com vários turnos. O Gemini 1.0 Ultra Vision está disponível para todos os usuários para um conjunto selecionado de clientes. | Entrada máxima de tokens: 8.192 Saída máxima de tokens: 2.048 |
Supervisionado: não RLHF: não Destilação: não |
Modelos da API PaLM
A tabela a seguir resume os modelos disponíveis na API PaLM:
Nome do modelo | Descrição | Propriedades do modelo | Suporte ao ajuste |
---|---|---|---|
PaLM 2 para texto ( text-bison ) |
Ajustado para seguir instruções de linguagem natural e adequado para várias tarefas de linguagem, como classificação, resumo e extração. | Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 1.024 Dados de treinamento: até fevereiro de 2023 |
Supervisionado: sim RLHF: sim (Prévia) Destilação: não |
PaLM 2 para texto (text-unicorn ) |
O modelo de texto mais avançado na família de modelos do PaLM para uso com tarefas complexas de linguagem natural. | Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 1.024 Dados de treinamento: até fevereiro de 2023 |
Supervisionado: não RLHF: não Destilação: sim (Prévia) |
PaLM 2 para texto 32k ( text-bison-32k ) |
(padrão): ajustado para seguir instruções de linguagem natural e adequado para várias tarefas de linguagem. | Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 Dados de treinamento: até agosto de 2023 |
Supervisionado: sim RLHF: não Destilação: não |
PaLM 2 para chat ( chat-bison ) |
Sintonizado para casos de uso de conversa com vários turnos. | Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 2.048 Dados de treinamento: até fevereiro de 2023 Máximo de turnos : 2.500 |
Supervisionado: sim RLHF: não Destilação: não |
PaLM 2 para chat 32k ( chat-bison-32k ) |
Sintonizado para casos de uso de conversa com vários turnos. | Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 Dados de treinamento: até agosto de 2023 Máximo de turnos : 2.500 |
Supervisionado: sim RLHF: não Destilação: não |
Embeddings para texto ( textembedding-gecko ) |
Retorna embeddings de modelo para entradas de texto. | 3.072 tokens de entrada e gera incorporações vetoriais de 768 dimensões. |
Supervisionado: sim RLHF: não Destilação: não |
Embeddings para texto multilíngue ( textembedding-gecko-multilingual ) |
Retorna embeddings de modelo para entradas de texto compatíveis com mais de 100 idiomas | 3.072 tokens de entrada e gera incorporações vetoriais de 768 dimensões. |
Supervisionado: sim
(Prévia) RLHF: não Destilação: não |
Modelos de APIs Codey
A tabela a seguir resume os modelos disponíveis nas APIs Codey:
Nome do modelo | Descrição | Propriedades do modelo | Suporte ao ajuste |
---|---|---|---|
Codey para geração de código ( code-bison ) |
Um modelo ajustado para gerar código com base em uma descrição de linguagem natural do código desejado. Por exemplo, ele pode gerar um teste de unidade para uma função. | Máximo de tokens de entrada: 6.144 Máximo de tokens de saída: 1.024 |
Supervisionado: sim RLHF: não Destilação: não |
Codey para geração de código 32k ( code-bison-32k ) |
Um modelo ajustado para gerar código com base em uma descrição de linguagem natural do código desejado. Por exemplo, ele pode gerar um teste de unidade para uma função. | Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 |
Supervisionado: sim RLHF: não Destilação: não |
Codey para chat de código ( codechat-bison ) |
Um modelo ajustado para conversas do bot de chat que ajudam com perguntas relacionadas a códigos. | Máximo de tokens de entrada: 6.144 Máximo de tokens de saída: 1.024 |
Supervisionado: sim RLHF: não Destilação: não |
Codey para chat de código 32k ( codechat-bison-32k ) |
Um modelo ajustado para conversas do bot de chat que ajudam com perguntas relacionadas a códigos. | Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 |
Supervisionado: sim RLHF: não Destilação: não |
Codey para preenchimento de código ( code-gecko ) |
Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. | Máximo de tokens de entrada: 2.048 Máximo de tokens de saída: 64 |
Supervisionado: não RLHF: não Destilação: não |
Modelos da API Imagen
A tabela a seguir resume os modelos disponíveis na API Imagen:
Nome do modelo | Descrição | Propriedades do modelo | Suporte ao ajuste |
---|---|---|---|
Imagen para geração de imagens ( imagegeneration ) | Esse modelo é compatível com a geração de imagens e pode criar recursos visuais de alta qualidade em segundos. | Número máximo de solicitações por minuto por projeto: 100 Máximo de imagens geradas: 8 Imagem de base máxima (edição/aumento): 10 MB Resolução da imagem gerada: 1024 x 1024 pixels |
Supervisionado: não RLHF: não |
Embeddings para multimodal ( multimodalembedding ) | Esse modelo gera vetores com base na entrada fornecida, o que pode incluir uma combinação de imagem e texto. | Número máximo de solicitações por minuto por projeto: 120 Tamanho máximo do texto: 32 tokens Idioma: inglês Tamanho máximo da imagem: 20 MB |
Supervisionado: não RLHF: não |
Legendas de imagens ( imagetext ) | O modelo que é compatível com legendas de imagens. Esse modelo gera uma legenda a partir de uma imagem fornecida com base no idioma especificado. | Número máximo de solicitações por minuto por projeto: 500 Idiomas: inglês, francês, alemão, italiano, espanhol Tamanho máximo da imagem: 10 MB Número máximo de legendas: 3 |
Supervisionado: não RLHF: não |
Resposta visual a perguntas (VQA) ( imagetext ) | Um modelo compatível com imagens de perguntas e respostas. | Número máximo de solicitações por minuto por projeto: 500 Idiomas: inglês Tamanho máximo da imagem: 10 MB Número máximo de respostas: 3 |
Supervisionado: não RLHF: não |
Modelos da API MedLM
A tabela a seguir resume os modelos disponíveis na API MedLM:
Nome do modelo | Descrição | Propriedades do modelo | Suporte ao ajuste |
---|---|---|---|
MedLM-medium (medlm-medium ) | Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esses modelos ajudam os profissionais de saúde com perguntas e respostas médicas (Perguntas e respostas) e resumindo documentos de saúde e médicos. | Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 Idiomas: inglês |
Supervisionado: não RLHF: não |
MedLM-large (medlm-large ) | Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esses modelos ajudam os profissionais de saúde com perguntas e respostas médicas (Perguntas e respostas) e resumindo documentos de saúde e médicos. | Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 1.024 Idiomas: inglês |
Supervisionado: não RLHF: não |
Suporte ao idioma
A API PaLM da Vertex AI e a API Vertex AI Gemini estão com disponibilidade geral (GA, na sigla em inglês) para os seguintes idiomas:
- Árabe (
ar
) - Bengalês (
bn
) - Búlgaro (
bg
) - Chinês (simplificado e tradicional) (
zh
) - Croata (
hr
) - República Tcheca (
cs
) - Coreano (
da
) - Holandês (
nl
) - Inglês (
en
) - Estoniano (
et
) - Finlandês (
fi
) - Francês (
fr
) - Alemão (
de
) - Grego (
el
) - Hebraico (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonésio (
id
) - Italiano (
it
) - Japonês (
ja
) - Coreano (
ko
) - Letão (
lv
) - Lituano (
lt
) - Norueguês (
no
) - Polonês (
pl
) - Português (
pt
) - Romeno (
ro
) - Russo (
ru
) - Sérvio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Espanhol (
es
) - Suaíli (
sw
) - Sueco (
sv
) - Tailandês (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)
Para acessar outros idiomas, entre em contato com seu representante do Google Cloud.
Explorar todos os modelos no Model Garden
O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.
Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.
A seguir
- Confira um tutorial de início rápido usando o Vertex AI Studio ou a API Vertex AI.
- Saiba como testar comandos de texto.
- Saiba como testar comandos de chat.
- Confira modelos pré-treinados no Model Garden.
- Saiba como ajustar um modelo de fundação.
- Saiba mais sobre as práticas recomendadas de IA responsável e os filtros de segurança da Vertex AI.