A Vertex AI apresenta uma lista crescente de modelos de fundação que podem ser testados, implantados e personalizados para uso nos seus aplicativos baseados em AI. Os modelos básicos são ajustados para casos de uso específicos e são oferecidos com preços diferentes. Nesta página, resumimos os modelos disponíveis nas várias APIs e orientamos você sobre quais modelos escolher de acordo com o caso de uso.
Para mais informações sobre todos os modelos e APIs de IA na Vertex AI, consulte Conhecer modelos de IA no Model Garden.
Modelos do Gemini
A tabela a seguir resume os modelos disponíveis na API Gemini. Para mais informações sobre a API, consulte a referência da API Gemini.
Para usar um modelo no console do Google Cloud, selecione o card do modelo no Model Garden:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash-001
|
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto, áudio (visualização particular) e imagens (visualização particular) | Modelo de trabalho para todas as tarefas diárias. Excelente desempenho geral e compatibilidade com a API Live de streaming em tempo real. | Testar o Gemini 2.0 Flash |
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
|
Texto, imagens, vídeo, áudio, PDF | Texto | Melhor qualidade de modelo, especialmente para conhecimento de código e do mundo; contexto de 2 milhões. | Testar o Gemini 2.0 Pro |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05
|
Texto, imagens, vídeo, áudio, PDF | Texto | Nossa oferta econômica para oferecer suporte a alta capacidade. | Teste o Gemini 2.0 Flash-Lite |
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
|
Texto, imagens | Texto | Fornece recursos de raciocínio mais fortes e inclui o processo de pensamento nas respostas. | Teste o Gemini 2.0 Flash Thinking |
Gemini 1.5 Flash
gemini-1.5-flash
|
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | Oferece velocidade e eficiência para apps de alto volume, de qualidade e econômicos. | Testar o Gemini 1.5 Flash |
Gemini 1.5 Pro
gemini-1.5-pro
|
Texto, código, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | Oferece suporte a comandos de texto ou chat para uma resposta de texto ou código. Oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada. |
Testar o Gemini 1.5 Pro |
Gemini 1.0 Pro
gemini-1.0-pro
|
Texto | Texto | O modelo com melhor desempenho para uma ampla variedade de tarefas somente de texto. | Testar o Gemini 1.0 Pro |
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
|
Texto, imagens, áudio, vídeo, vídeo com áudio, PDF | Texto | O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. | Testar o Gemini 1.0 Pro Vision |
As informações a seguir fornecem detalhes sobre cada modelo do Gemini.
Gemini 2.0 Flash
A próxima geração dos nossos modelos Gemini Flash. O Gemini 2.0 Flash oferece velocidade superior aos nossos modelos 1.5 e oferece suporte a uma variedade maior de recursos, como streaming bidirecional com a API Multimodal Live, geração de respostas multimodais e uso de ferramentas integradas.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento com a Pesquisa Google | |
Execução do código | |
Ajuste | |
Instrução do sistema | Consulte Usar as instruções do sistema. |
Geração controlada | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 1.048.576 |
Máximo de tokens de saída | 8.192 |
Dados de treinamento | Até junho de 2024 |
Gemini 2.0 Pro
O Gemini 2.0 Pro é nosso modelo mais avançado para programação e conhecimento mundial e tem uma janela de contexto de 2 milhões. O Gemini 2.0 Pro está disponível como um modelo experimental na Vertex AI e é um caminho de upgrade para usuários do 1.5 Pro que querem uma qualidade melhor ou que estão particularmente interessados em contexto e código longos.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento com a Pesquisa Google | |
Execução do código | |
Ajuste | |
Instrução do sistema | Consulte Usar as instruções do sistema. |
Suporte a JSON | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 2.097.152 |
Máximo de tokens de saída | 8.192 |
Dados de treinamento | Até junho de 2024 |
Gemini 2.0 Flash-Lite
O Gemini 2.0 Flash-Lite é nosso modelo Flash mais rápido e econômico. É um caminho de upgrade para usuários do Flash 1.5 que querem qualidade melhor pelo mesmo preço e velocidade.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento com a Pesquisa Google | |
Execução do código | |
Ajuste | |
Instrução do sistema | Consulte Usar as instruções do sistema. |
Suporte a JSON | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 1.048.576 |
Máximo de tokens de saída | 8.192 |
Dados de treinamento | Até junho de 2024 |
Gemini 2.0 Flash Thinking
O Gemini 2.0 Flash Thinking é um modelo de computação experimental de tempo de teste que foi treinado para gerar o "processo de pensamento" pelo qual o modelo passa como parte da resposta. Como resultado, o Flash Thinking tem capacidades de raciocínio mais fortes nas respostas do que o modelo básico do Gemini 2.0 Flash. Para mais informações, consulte a documentação do Gemini 2.0 Flash Thinking.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | |
Ajuste | |
Instrução do sistema | Consulte Usar as instruções do sistema. |
Suporte a JSON | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 1.048.576 |
Máximo de tokens de saída | 65.536 |
Dados de treinamento | Até maio de 2024 |
Gemini 1.5 Flash
Um modelo multimodal projetado para aplicativos de alto volume e econômicos, que oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometem a qualidade.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Somente entrada de texto |
Ajuste | |
Instrução do sistema | Consulte Usar as instruções do sistema. |
Geração controlada | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 1.048.576 |
Máximo de tokens de saída | 8.192 |
Tamanho máximo de imagem bruta | 20 MB |
Tamanho máximo da imagem codificada em base64 | 7 MB |
Máximo de imagens por comando | 3.000 |
Duração máxima do vídeo | 1 hora |
Máximo de vídeos por comando | 10 |
Duração máxima do áudio | aproximadamente 8,4 horas |
Áudio máximo por comando | 1 |
Tamanho máximo do PDF | 30 MB |
Dados de treinamento | Até maio de 2024 |
Gemini 1.5 Pro
Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Esse modelo oferece suporte à compreensão de contextos longos até o limite máximo de tokens de entrada.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Sim (somente entrada de texto) |
Ajuste | |
Instrução do sistema | Sim. Consulte Usar as instruções de sistema. |
Suporte a JSON | |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 2.097.152 |
Máximo de tokens de saída | 8.192 |
Máximo de imagens por comando | 3.000 |
Duração máxima do vídeo (somente frames) | aproximadamente uma hora |
Duração máxima do vídeo (frame e áudio) | aproximadamente 45 minutos |
Máximo de vídeos por comando | 10 |
Duração máxima do áudio | aproximadamente 8,4 horas |
Áudio máximo por comando | 1 |
Tamanho máximo do PDF | 30 MB |
Dados de treinamento | Até maio de 2024 |
Gemini 1.0 Pro
O modelo com melhor desempenho e recursos para uma ampla variedade de tarefas somente de texto. Esse modelo só aceita texto como entrada.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | Sim (somente entrada de texto) |
Ajuste | Sim. O ajuste supervisionado tem suporte para gemini-1.0-pro-002. |
Instrução do sistema | Sim. Compatível com gemini-1.0-pro-002. Consulte Usar as instruções de sistema. |
Suporte a JSON | |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 32.760 |
Máximo de tokens de saída | 8.192 |
Dados de treinamento | Até fevereiro de 2023 |
Gemini 1.0 Pro Vision
O modelo de compreensão de imagens e vídeos com melhor desempenho para lidar com uma ampla gama de aplicativos. O Gemini 1.0 Pro Vision oferece suporte a texto, imagem e vídeo como entradas.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | |
Ajuste | |
Instrução do sistema | |
Suporte a JSON | |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 16.384 |
Máximo de tokens de saída | 2.048 |
Máximo de imagens por comando | 16 |
Duração máxima do vídeo | 2 minutos |
Máximo de vídeos por comando | 1 |
Dados de treinamento | Até fevereiro de 2023 |
Gemini 1.0 Ultra
O modelo de texto mais eficiente do Google, otimizado para tarefas complexas, incluindo instruções, código e raciocínio. O Gemini 1.0 Ultra oferece suporte apenas a entrada de texto.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | |
Ajuste | |
Instrução do sistema | |
Suporte a JSON | |
Capacidade de processamento provisionada | Sim. Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 8.192 |
Máximo de tokens de saída | 2.048 |
Gemini 1.0 Ultra Vision
O modelo de visão multimodal mais eficiente do Google, otimizado para oferecer suporte a entradas de texto, imagens e vídeo.
Recursos
Capacidade | Disponibilidade |
---|---|
Embasamento | |
Ajuste | |
Instrução do sistema | |
Suporte a JSON | |
Capacidade de processamento provisionada | Consulte Modelos compatíveis. |
Especificações
Especificação | Valor |
---|---|
Máximo de tokens de entrada | 8.192 |
Máximo de tokens de saída | 2.048 |
Suporte a idiomas no Gemini
Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:
Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)
Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:
Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)
Modelos Gemma
A tabela a seguir resume os modelos do Gemma.
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Gemma Detalhes do modelo |
Texto | Texto | Um modelo de texto aberto, leve e de tamanho pequeno que oferece suporte à geração, resumo e extração de textos. Implantável em ambientes com recursos limitados. | Teste o Gemma |
CodeGemma Detalhes do modelo |
Texto, código, PDF | Texto | Uma coleção de modelos de código aberto leves criados com base no Gemma. Melhor para geração e preenchimento de código. | Testar o CodeGemma |
PaliGemma Detalhes do modelo |
Texto, imagens | Texto | Um modelo de visão-linguagem leve (VLM). Ideal para tarefas de legendagem de imagens e respostas a perguntas visuais. | Testar o PaliGemma |
Suporte a idiomas do Gemma
O Gemma só oferece suporte ao inglês.
Modelos de embeddings
A tabela a seguir resume os modelos disponíveis na API Embeddings.
Nome do modelo | Descrição | Especificações | Testar o modelo |
---|---|---|---|
Embeddings para texto ( textembedding-gecko@001, )Detalhes do modelo |
Retorna embeddings para entradas de texto em inglês.
Oferece suporte a ajuste supervisionado de modelos de Embeddings de texto, somente em inglês. |
Entrada máxima de tokens: 3.072 (textembedding-gecko@001 ).Outros: 2.048. Dimensões de embedding: text-embedding-004 : <=768. Outros: 768. |
Testar embeddings de texto |
Embeddings para texto multilíngue ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Detalhes do modelo |
Retorna embeddings para entradas de texto de mais de 100 idiomas
Oferece suporte a ajuste supervisionado do modelo text-multilingual-embedding-002 . Compatível com cem idiomas. |
Entrada máxima de tokens: 2.048. Dimensões de embedding: text-multilingual-embedding-002 : <=768. Outros: 768. |
Testar os embeddings de texto multilíngue |
Embeddings para multimodal(multimodalembedding) Detalhes do modelo |
Retorna o embedding de entradas de texto, imagem e vídeo para comparar o conteúdo em diferentes modelos. Converte texto, imagem e vídeo no mesmo espaço vetorial. O vídeo só aceita 1.408 dimensões. Somente em inglês |
Entrada máxima de tokens: 32. Tamanho máximo da imagem: 20 MB. Duração máxima do vídeo: dois minutos. Dimensões de incorporação: 128, 256, 512 ou 1.408 para entrada de texto e imagem, 1.408 para entrada de vídeo. |
Testar embeddings para multimodal |
Suporte a idiomas de incorporação
Os modelos de incorporação de texto multilíngue oferecem suporte aos seguintes idiomas:
africâner, albanês, amárico, árabe, armênio, azerbaijano, basco,
bielorrusso, bengali, búlgaro, birmanês, catalão, cebuano, chichewa, chinês,
córsico, checo, dinamarquês, holandês, inglês, esperanto, estoniano, filipino,
finlandês, francês, galego, georgiano, alemão, grego, gujarati,
crioulo haitiano, hauçá, havaiano, hebraico, hindi, hmong, húngaro,
islandês, igbo, indonésio, irlandês, italiano, japonês, javanês, canarês,
kázar, khmer, coreano, curdo, quirguiz, lao, latim, letão, lituano,
luxemburguês, macedônio, malgaxe, malaio, malaiala, maltês, marati,
mongol, nepalês, norueguês, pachto, persa, polonês,
português, punjabi, romeno, russo, samoano, gaélico escocês,
sardo, sebuano,
sérvio, chona, sindi, cingalês, eslovaco, esloveno, somali, sotho,
espanhol, sudanês, suaíli, sueco, tadjique, tâmil, télugo, tailandês,
turco, ucraniano, urdu, uzbeque, vietnamita, galês, frísio ocidental,
xhosa, ídiche, iorubá, zulu.
Modelo do Imagen
A tabela a seguir resume os modelos disponíveis na API Imagen:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Imagem 3 ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 )Imagem 2 ( imagegeneration@006 ,
imagegeneration@005 )Imagem ( imagegeneration@002 )Detalhes do modelo |
Texto | Imagens | Esse modelo oferece suporte à geração e edição de imagens para criar imagens de alta qualidade em segundos. Isso inclui a geração de imagens usando aprendizado zero-shot. | Testar o Imagen para geração de imagens |
Imagem 3 (edição e personalização) ( imagen-3.0-capability-001 )Imagem 2 (edição) ( imagegeneration@006 )Imagem (edição) imagegeneration@002 )Detalhes do modelo |
Texto e imagens | Imagens | Esse modelo oferece suporte à edição de imagens e à geração de imagens personalizadas (com poucas fotos)
para criar imagens de alta qualidade em segundos.
O recurso de edição oferece suporte à pintura (remoção ou inserção de objetos), pintura externa e edição de imagens de produtos. A personalização oferece suporte ao aprendizado de poucas amostras, permitindo que você forneça imagens de referência para orientar a geração de imagens de saída. Esse modelo oferece suporte aos seguintes tipos de personalização: assunto (produto, pessoa e animal de estimação), estilo, personalização controlada (rabisco ou borda nítida) e personalização instruída (transferência de estilo). |
Teste o Imagen para edição e personalização |
Suporte a idiomas do Imagen 3
O Imagen 3 oferece suporte aos seguintes idiomas:
inglês, chinês, hindi, japonês, coreano, português e espanhol.
Modelo de preenchimento de código
A tabela a seguir resume os modelos disponíveis nas APIs Codey:
Modelo | Entradas | Saídas | Caso de uso | Testar o modelo |
---|---|---|---|---|
Codey para preenchimento de código ( code-gecko ) Detalhes do modelo |
Programar em idiomas compatíveis | Programar em idiomas compatíveis | Um modelo ajustado para sugerir a conclusão do código com base no contexto no código que está escrito. | Testar o Codey para preenchimento de código |
Suporte ao idioma do modelo de preenchimento de código
O modelo de preenchimento de código oferece suporte ao idioma inglês.
Modelos MedLM
A tabela a seguir resume os modelos disponíveis na API MedLM:
Nome do modelo | Descrição | Especificações | Testar o modelo |
---|---|---|---|
MedLM-medium (medlm-medium )Detalhes do modelo |
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. Oferece uma capacidade de processamento melhor e inclui dados mais recentes do que o modelo medlm-large . |
Máximo de tokens (entrada + saída): 32.768 Máximo de tokens de saída: 8.192 |
Teste o MedLM-medium |
MedLM-large (medlm-large )Detalhes do modelo |
Um conjunto de modelos e APIs ajustados com tecnologia da Google Research em conformidade com a HIPAA. Esse modelo ajuda os profissionais de saúde com tarefas de perguntas e respostas médicas e tarefas de resumo para documentos de saúde e médicos. |
Máximo de tokens de entrada: 8.192 Máximo de tokens de saída: 1.024 |
Testar o MedLM-large |
Suporte à capacidade de processamento provisionada do MedLM
O MedLM-medium e o MedLM-large oferecem suporte ao volume de transferência provisionado. Consulte Modelos compatíveis.
Suporte a idiomas do MedLM
O modelo MedLM oferece suporte ao inglês.
Locais
Para conferir uma lista de locais em que esses modelos estão disponíveis, consulte IA generativa em locais da Vertex AI.
Versões do modelo
Para saber mais sobre as versões do modelo, consulte Versões do modelo.
Explorar todos os modelos no Model Garden
O Model Garden é uma plataforma que ajuda a descobrir, testar, personalizar e implantar a propriedade do Google e selecionar modelos e recursos de OSS. Para conferir os modelos de IA generativa e as APIs disponíveis na Vertex AI, acesse "Grupo de modelos" no console do Google Cloud.
Para saber mais sobre o Model Garden, incluindo modelos e recursos disponíveis, consulte Explorar modelos de IA no Model Garden.
A seguir
- Confira um tutorial de início rápido usando o Vertex AI Studio ou a API Vertex AI.
- Saiba como testar comandos de texto.
- Saiba como testar comandos de chat.
- Confira modelos pré-treinados no Model Garden.
- Saiba como ajustar um modelo de fundação.
- Saiba mais sobre as práticas recomendadas de IA responsável e os filtros de segurança da Vertex AI.
- Saiba como controlar o acesso a modelos específicos no Model Garden usando uma política de organização do Model Garden.