Lista de modelos primários do Google
A tabela a seguir lista os modelos primários do Google disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Guias de início rápido |
---|---|---|---|
Gemini 1.5 Flash | Idioma, áudio e visão | O modelo multimodal Gemini mais rápido e econômico. Ele foi criado para tarefas de alto volume e aplicativos acessíveis, sensíveis à latência. Devido à responsividade do Gemini 1.5 Flash, ele é uma boa opção para criar assistentes de chat e aplicativos de geração de conteúdo sob demanda. | Card de modelo |
Gemini 1.5 Pro | Idioma, áudio e visão | Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. | Card de modelo |
Gemini 1.0 Pro | Idioma | Projetado para processar tarefas de linguagem natural, chat de código e texto com várias interações e geração de código. | Card de modelo |
Gemini 1.0 Pro Vision | Linguagem, visão | Modelo multimodal compatível com a adição de arquivos de imagem, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. | Card de modelo |
PaLM 2 para texto | Idioma | Ajustado para seguir instruções de linguagem natural e adequado para várias tarefas de linguagem. | Card de modelo |
PaLM 2 para chat | Idioma | Ajustado para conduzir conversas naturais. Use este modelo para criar e personalizar seu próprio aplicativo de chatbot. | Card de modelo |
Codey para preenchimento de código | Idioma | Gera código com base em solicitações. Bom para sugestões de código e para minimizar bugs no código. | Card de modelo |
Codey para geração de códigos | Idioma | Gera código com base na entrada de linguagem natural. Bom para escrever funções, classes, testes de unidade e muito mais. | Card de modelo |
Codey para chat de código | Idioma | Receba assistência relacionada ao código por meio de conversa natural. Bom para perguntas sobre uma API, sintaxe em uma linguagem compatível e muito mais. | Card de modelo |
Embeddings para texto | Idioma | Converte dados textuais em vetores numéricos que podem ser processados por algoritmos de machine learning, especialmente modelos grandes. | Card de modelo |
Imagen para geração de imagens | Vision | Crie imagens de estúdio em escala usando comandos de texto. Também é possível usar esse modelo para aumentar as imagens. | Card de modelo |
Imagen para edição e personalização | Vision | Edite ou use o aprendizado por poucas amostras para criar imagens de estúdio em escala usando imagens de base e comandos de texto ou usando imagens de referência e comandos de texto. | Card de modelo |
Segmentação de imagens da Vertex (pré-lançamento) | Vision | Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite, por exemplo, detectar objetos, remover o plano de fundo de uma imagem ou segmentar o primeiro plano de uma imagem. | Card de modelo |
Imagem para legendas e VQA | Idioma | Gera uma descrição relevante para uma determinada imagem. | Card de modelo |
Embeddings para multimodal | Vision | Gera vetores com base em imagens, que podem ser usadas para tarefas downstream, como classificação e pesquisa de imagens. | Card de modelo |
Chirp | Fala | Uma versão de um modelo de fala universal que tem mais de 2 bilhões de parâmetros e pode transcrever em mais de cem idiomas em um único modelo. | Card de modelo |
Lista de modelos com receitas de ajuste ou disponibilização de código aberto no Model Garden
A tabela a seguir lista os modelos de OSS compatíveis com ajuste de código aberto ou receitas de veiculação no Model Garden:
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
Llama 3.3 | Idioma | O modelo de linguagem grande (LLM) multilíngue Meta Llama 3.3 é um modelo generativo pré-treinado e ajustado por instrução em 70B (entrada/saída de texto). | Card de modelo |
Flux | Vision | Um modelo de transformador de fluxo retificado de 12 bilhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto. | Card de modelo |
PromptGuard | Idioma | O LLM de proteção protege as entradas contra técnicas de jailbreak e injeções indiretas. | Card de modelo |
Llama 3.2 | Idioma | Uma coleção de modelos de linguagem grandes que são multilíngues, generativos, pré-treinados e ajustados por instrução nos tamanhos 1B e 3B. | Card de modelo |
Llama 3.2-Vision | Linguagem, visão | Uma coleção de modelos de linguagem grandes multimodais de raciocínio de imagem, pré-treinados e ajustados por instrução, nos tamanhos 11B e 90B. Esses modelos são otimizados para reconhecimento visual, raciocínio de imagem, legendas e respostas a perguntas gerais sobre uma imagem. | Card de modelo |
Llama Guard 3 | Idioma | Um modelo pré-treinado Llama-3.1-8B que foi ajustado para classificação de segurança de conteúdo. | Card de modelo |
Qwen2 | Idioma | Implante o Qwen2, uma série de modelos de linguagem grandes de fundação. | Colab Card de modelo |
Phi-3 | Idioma | Implante o Phi-3, uma série de modelos de linguagem grande de fundação. | Colab Card de modelo |
E5 | Idioma | Implantar o E5, uma série de modelos de embedding de texto. | Colab Card de modelo |
ID instantâneo | Linguagem, visão | Implante o Instant ID, um modelo de geração de texto para imagem que preserva a identidade. | Colab Card de modelo |
Llama 3 | Idioma | Faça análises e criações com os modelos Llama 3 da Meta (8B, 70B, 405B) na Vertex AI. | Card de modelo |
Gemma 2 | Idioma | Modelos de peso abertos (9B, 27B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
Gemma | Idioma | Modelos de peso abertos (2B, 7B) que são criados com as mesmas pesquisa e tecnologia usadas para criar os modelos do Google Gemini. | Card de modelo |
CodeGemma | Idioma | Modelos de peso aberto (2B, 7B) para geração e preenchimento de código, desenvolvidos com as mesmas pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
PaliGemma | Idioma | Modelo 3B de peso aberto para tarefas de legendagem de imagens, perguntas visuais e respostas, criado com as mesmas pesquisa e tecnologia usadas para criar os modelos Gemini do Google. | Card de modelo |
Vicuna v1.5 | Idioma | Implante os modelos da série Vicuna v1.5, que são modelos de fundação ajustados com LLama2 para geração de texto. | Card de modelo |
NLLB | Idioma | Implante modelos da série nllb para tradução em vários idiomas. | Card de modelo Colab |
Mistral-7B | Idioma | Implante o Mistral-7B, um modelo de fundação para geração de texto. | Card de modelo |
BioGPT | Idioma | Implante o BioGPT, um modelo generativo de texto para o domínio biomédico. | Card de modelo Colab |
BiomedCLIP | Linguagem, visão | Implante o BiomedCLIP, um modelo de fundação multimodal para o domínio biomédico. | Card de modelo Colab |
ImageBind | Idioma, visão, áudio |
Implante o ImageBind, um modelo de fundação para incorporação multimodal. | Card de modelo Colab |
DITO | Linguagem, visão | Ajuste e implante o DITO, um modelo de fundação multimodal para tarefas de detecção de objetos de vocabulário aberto. | Card de modelo Colab |
OWL-ViT v2 | Linguagem, visão | Implante o OWL-ViT v2, um modelo de fundação multimodal para tarefas de detecção de objetos de vocabulário aberto. | Card de modelo Colab |
FaceStylizer (Mediapipe) | Vision | Um pipeline generativo para transformar imagens de rostos humanos em um novo estilo. | Card de modelo Colab |
Llama 2 | Idioma | Ajuste e implante os modelos de fundação Llama 2 da Meta (7B, 13B, 70B) na Vertex AI. | Card de modelo |
Code Llama | Idioma | Implante os modelos de fundação Code Llama da Meta (7B, 13B, 34B) na Vertex AI. | Card de modelo |
Falcon-instruct | Idioma | Ajuste e implante modelos Falcon-instruct (7B, 40B) usando PEFT. | Colab Card de modelo |
OpenLLaMA | Idioma | Ajuste e implante modelos OpenLLaMA (3B, 7B, 13B) usando PEFT. | Colab Card de modelo |
T5-FLAN | Idioma | Ajuste e implante o T5-FLAN (base, pequeno, grande). | Card de modelo (pipeline de ajuste fino incluso) |
BERT | Idioma | Ajuste e implante o BERT usando PEFT. | Colab Card de modelo |
BART-large-cnn | Idioma | Implante o BART, um modelo codificador-codificador de transformação (seq2seq) com um codificador bidirecional (do tipo BERT) e um decodificador autorregressivo (do tipo GPT). | Colab Card de modelo |
RoBERTa-large | Idioma | Ajuste e implante o RoBERTa-large usando PEFT. | Colab Card de modelo |
XLM-RoBERTa-large | Idioma | Ajuste e implante o XLM-RoBERTa-large (uma versão multilíngue do RoBERTa) usando PEFT. | Colab Card de modelo |
Dolly-v2-7b | Idioma | Implante o Dolly-v2-7b, um modelo de linguagem grande que segue instruções e tem 6,9 bilhões de parâmetros. | Colab Card de modelo |
Stable Diffusion XL v1.0 | Linguagem, visão | Implante o Stable Diffusion XL v1.0, que é compatível com geração de texto para imagem. | Colab Card de modelo |
Stable Diffusion XL Lightning | Linguagem, visão | Implante o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem. | Colab Card de modelo |
Stable Diffusion v2.1 | Linguagem, visão | Ajuste e implante o Stable Diffusion v2.1 (compatível com a geração de texto para imagem) usando o DreamBooth. | Colab Card de modelo |
Stable Diffusion 4x Upscaler | Linguagem, visão | Implante o Stable Diffusion 4x Upscaler, que é compatível com a super-resolução de imagens condicionadas por texto. | Colab Card de modelo |
InstructPix2Pix | Linguagem, visão | Implante o InstructPix2Pix, que é compatível com a edição de imagens usando um comando de texto. | Colab Card de modelo |
Stable Diffusion Inpainting | Linguagem, visão | Ajuste e implante o Stable Diffusion Inpainting, que é compatível com retoque de uma imagem mascarada usando um comando de texto. | Colab Card de modelo |
SAM | Linguagem, visão | Implante o Segment Anything, que é compatível com a segmentação de imagens zero-shot. | Colab Card de modelo |
Texto para vídeo (ModelScope) | Linguagem, visão | Implante a conversão de texto em vídeo do ModelScope, que é compatível com a geração de texto para vídeo. | Colab Card de modelo |
Recuperação de imagens compostas do Pic2Word | Linguagem, visão | Implante o Pic2Word, que é compatível com a recuperação multimodal de imagens compostas. | Colab Card de modelo |
BLIP2 | Linguagem, visão | Implante o BLIP2, que é dá suporte à legendagem de imagens e resposta a perguntas visuais. | Colab Card de modelo |
Open-CLIP | Linguagem, visão | Ajuste e implante o Open-CLIP, que é compatível com a classificação zero-shot. | Colab Card de modelo |
F-VLM | Linguagem, visão | Implante o F-VLM, que dá suporte à detecção de objetos de imagem de vocabulário aberto. | Colab Card de modelo |
tfhub/EfficientNetV2 | Vision | Ajuste e implante a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetV2 (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetV2/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens EfficientNetV2. | Colab Card de modelo |
EfficientNetLite (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens EfficientNetLite com o criador de modelos MediaPipe. | Colab Card de modelo |
tfvision/vit | Vision | Ajuste e implante o modelo de classificação de imagens ViT do TensorFlow Vision. | Colab Card de modelo |
ViT (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens ViT. | Colab Card de modelo |
ViT/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens ViT. | Colab Card de modelo |
MaxViT/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de classificação de imagens MaxViT híbrido (CNN + ViT). | Colab Card de modelo |
ViT (JAX) | Vision | Ajuste e implante a implementação do JAX do modelo de classificação de imagens ViT. | Colab Card de modelo |
tfvision/SpineNet | Vision | Ajuste e implante a implementação do TensorFlow Vision do modelo de detecção de objetos SpineNet. | Colab Card de modelo |
SpineNet/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do modelo de detecção de objetos SpineNet. | Colab Card de modelo |
tfvision/YOLO | Vision | Ajuste e implante o modelo de detecção de objetos em fase única YOLO do TensorFlow Vision. | Colab Card de modelo |
YOLO/Reservado | Vision | Ajuste e implante o checkpoint reservado do Google do YOLO, um modelo de detecção de objetos em única fase. | Colab Card de modelo |
YOLOv8 (Keras) | Vision | Ajuste e implante a implementação do Keras do modelo YOLOv8 para detecção de objetos. | Colab Card de modelo |
tfvision/YOLOv7 | Vision | Ajuste e implante o modelo YOLOv7 para detecção de objetos. | Colab Card de modelo |
Rastreamento de objetos de vídeo do ByteTrack | Vision | Execute a previsão em lote para rastreamento de objetos de vídeo usando o rastreador ByteTrack. | Colab Card de modelo |
ResNeSt (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens ResNeSt. | Colab Card de modelo |
ConvNeXt (TIMM) | Vision | Ajuste e implante o ConvNeXt, um modelo puro de convolução para classificação de imagens inspirado no design do Vision Transformers. | Colab Card de modelo |
CspNet (TIMM) | Vision | Ajuste e implante o modelo de classificação de imagens CSPNet (Cross Stage Partial Network). | Colab Card de modelo |
Inception (TIMM) | Vision | Ajuste e implante o modelo de classificação de imagens Inception. | Colab Card de modelo |
DeepLabv3+ (com checkpoint) | Vision | Ajuste e implante o modelo DeepLab-v3 Plus para segmentação de imagens semânticas. | Colab Card de modelo |
Faster R-CNN (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo Faster R-CNN para detecção de objetos de imagem. | Colab Card de modelo |
RetinaNet (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo RetinaNet para detecção de objetos de imagem. | Colab Card de modelo |
Mask R-CNN (Detectron2) | Vision | Ajuste e implante a implementação do Detectron2 do modelo Mask R-CNN para detecção e segmentação de objetos de imagem. | Colab Card de modelo |
ControlNet | Vision | Ajuste e implante o modelo de geração de texto para imagem do ControlNet. | Colab Card de modelo |
MobileNet (TIMM) | Vision | Ajuste e implante a implementação do PyTorch do modelo de classificação de imagens MobileNet. | Colab Card de modelo |
Classificação de imagens MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens MobileNetV2 usando o criador de modelos MediaPipe. | Colab Card de modelo |
Detecção de objetos MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de detecção de objetos MobileNetV2 usando o criador de modelos MediaPipe. | Colab Card de modelo |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajuste o modelo de detecção de objetos MobileNet-MultiHW-AVG usando o criador de modelos MediaPipe. | Colab Card de modelo |
DeiT | Vision | Ajuste e implante o modelo DeiT (transformadores de imagens com eficiência de dados) para classificação de imagens. | Colab Card de modelo |
BEiT | Vision | Ajuste e implante o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para classificação de imagens. | Colab Card de modelo |
Reconhecimento de gestos da mão (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos de reconhecimento de gestos da mão usando o MediaPipe. | Colab Card de modelo |
Classificador médio de embedding de palavras (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos de classificador médio de embedding de palavras usando o MediaPipe. | Colab Card de modelo |
Classificador MobileBERT (MediaPipe) | Vision | Ajuste e implante no dispositivo os modelos do Classificador MobileBERT usando o MediaPipe. | Colab Card de modelo |
Classificação de videoclipes da MoViNet | Vídeo | Ajuste e implante modelos de classificação de videoclipes da MoViNet. | Colab Card de modelo |
Reconhecimento de ações em vídeo da MoViNet | Vídeo | Ajuste e implante modelos da MoViNet para inferência de reconhecimento de ações. | Colab Card de modelo |
LCM Stable Diffusion XL | Vision | Implante este modelo que usa o Modelo de Consistência Latente (LCM, na sigla em inglês) para melhorar a geração de imagens com base em texto em modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade em menos etapas. | Colab Card de modelo |
LLaVA 1.5 | Visão, linguagem | Implantar modelos LLaVA 1.5. | Colab Card de modelo |
PyTorch-ZipNeRF | Visão, Vídeo | Treine o modelo Pytorch-ZipNeRF, uma implementação de última geração do algoritmo ZipNeRF no framework Pytorch, projetado para uma reconstrução 3D eficiente e precisa usando imagens 2D. | Colab Card de modelo |
Mixtral | Idioma | Implante o modelo Mixtral, uma combinação de modelos de linguagem grandes (LLM) desenvolvidos pela Mistral AI. | Card de modelo |
Lhama 2 (quantizada) | Idioma | Ajuste e implante uma versão quantizada dos modelos Llama 2 da Meta. | Colab Card de modelo |
LaMa (Large Mask Inpainting) | Vision | Implante o LaMa, que usa Convoluções Rápidas de Fourier (FFC, na sigla em inglês), uma alta perda perceptível de campo receptivo e grandes máscaras de treinamento para retoques de imagens com resolução robusta. | Colab Card de modelo |
AutoGluon | Tabular | Com o AutoGluon, é possível treinar e implantar modelos de machine learning de alta precisão e aprendizado profundo para dados tabulares. | Colab Card de modelo |
MaMMUT | Linguagem, visão | Uma arquitetura de codificador de visão e de decodificador de texto para multimodais como respostas visuais a perguntas, recuperação de imagens-texto, recuperação de imagens de texto e geração de embeddings multimodais. | Colab Card de modelo |
Whisper Large | Fala | Implante o Whisper Large, o modelo de reconhecimento automático de fala (ASR) de ponta da OpenAI. | Colab Card de modelo |
Lista de modelos de parceiros disponíveis no Model Garden
Alguns modelos de parceiros são oferecidos como APIs gerenciadas no Model Garden da Vertex AI, também chamados de modelo como serviço. A tabela abaixo mostra os modelos de parceiros do Google disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Guia de início rápido |
---|---|---|---|
Soneto Claude 3.5 v2 da Anthropic | Idioma | O Claude 3.5 Sonnet atualizado é um modelo de ponta para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. | Card de modelo |
Haiku Claude 3.5 da Anthropic | Idioma | O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e econômico da Anthropic, é ideal para casos de uso em que a velocidade e a acessibilidade são importantes. | Card de modelo |
Claude 3 Opus da Anthropic | Idioma | Um modelo de IA poderoso, com desempenho de alto nível em tarefas altamente complexas. Ele é capaz de lidar com comandos abertos e cenários não vistos com fluência notável e de compreensão semelhante à humana. | Card de modelo |
Haiku Claude 3 da Anthropic | Idioma | O modelo de texto e visão mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, voltado para experiências de IA perfeitas que imitam interações humanas. | Card de modelo |
Soneto Claude 3.5 da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermediário da Anthropic, Claude 3 Sonnet. | Card de modelo |
Jamba 1.5 Large (pré-lançamento) | Idioma | O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. | Card de modelo |
Jamba 1.5 Mini (pré-lançamento) | Idioma | O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e custo. | Card de modelo |
Llama 3.2 (pré-lançamento) | Linguagem, visão | Um modelo multimodal de 90B de tamanho médio que dá suporte ao raciocínio de imagem, como análise de gráficos e legendas de imagens. | Card de modelo |
Llama 3.1 (pré-lançamento) | Idioma | Uma coleção de LLMs multilíngues otimizados para casos de uso de diálogo multilíngue, que superam muitos dos modelos de chat fechados e de código aberto em comparativos de mercado comuns. | Card de modelo |
Mistral Large (24.11) | Idioma | O Mistral Large (24.11) é a próxima versão do modelo Mistral Large (24.07), agora com recursos aprimorados de raciocínio e chamada de função. | Card de modelo |
Mistral Nemo | Idioma | O modelo de IA Mistral mais econômico e reservado. Use as cargas de trabalho de baixa latência e tarefas básicas do Mistral Nemo que podem ser realizadas em massa, como classificação, suporte ao cliente e geração de texto. | Card de modelo |
Codestral (25.01) | Código | Um modelo avançado projetado para geração de código, incluindo preenchimento e conclusão de código. | Card de modelo |