A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estão disponíveis em projetos que não tenham usado estes modelos anteriormente, incluindo novos projetos. Para ver detalhes, consulte o artigo Versões e ciclo de vida dos modelos.

Esta página foi traduzida pela API Cloud Translation.

Modelos suportados pelo Model Garden

Lista de modelos originais da Google

A tabela seguinte apresenta os modelos originais da Google disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Inícios rápidos
Gemini 2.5 Flash (pré-visualização)	Idioma, áudio e visão	Modelo de raciocínio concebido para equilibrar o preço e o desempenho.	Cartão do modelo
Gemini 2.5 Pro (pré-visualização)	Idioma, áudio e visão	Modelo de raciocínio com funcionalidades de próxima geração e capacidades melhoradas.	Cartão do modelo
Gemini 2.0 Flash	Idioma, áudio e visão	O modelo mais usado para todas as tarefas diárias e funcionalidades com desempenho melhorado e suporte para a API Live em tempo real.	Cartão do modelo
Gemini 2.0 Flash-Lite	Idioma, áudio e visão	O modelo Flash mais rápido e económico. Oferece uma qualidade superior à do 1.5 pelo mesmo preço e velocidade.	Cartão do modelo
Imagen para geração de imagens	Vision	Crie imagens de qualidade profissional em grande escala através de comandos de texto. Também pode usar este modelo para aumentar a resolução das imagens.	Cartão do modelo
Imagen para edição e personalização	Vision	Edite ou use a aprendizagem com poucos exemplos para criar imagens com qualidade de estúdio em grande escala usando imagens base e comandos de texto, ou usando imagens de referência e comandos de texto.	Cartão do modelo
Vertex Image Segmentation (pré-visualização)	Vision	Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite-lhe, por exemplo, detetar objetos, remover o fundo de uma imagem ou segmentar o primeiro plano de uma imagem.	Cartão do modelo
Imagen para legendagem e VQA	Idioma	Gera uma descrição relevante para uma determinada imagem.	Cartão do modelo
Incorporações para texto	Idioma	Gera vetores com base no texto, que podem ser usados para tarefas posteriores, como pesquisa semântica, classificação de texto e análise de sentimentos.	Cartão do modelo
Incorporações para multimodal	Vision	Gera vetores com base em imagens, que podem ser usados para tarefas posteriores, como classificação de imagens e pesquisa de imagens.	Cartão do modelo
Chirp 2	Voz	O Chirp 2 é um modelo de reconhecimento de voz automático (ASR) multilingue desenvolvido pela Google que transcreve a voz (voz para texto). Em comparação com a primeira geração de modelos Chirp, o Chirp 2 oferece maior precisão e velocidade, e disponibiliza novas capacidades, como datas/horas ao nível das palavras, adaptação do modelo e tradução de voz.	Cartão do modelo

Lista de modelos geridos disponíveis no Model Garden

Os modelos são oferecidos como APIs geridas no Vertex AI Model Garden (também conhecido como modelo como serviço).

Modelos de parceiros disponíveis no Model Garden

A tabela seguinte lista os modelos de parceiros disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
Claude Opus 4.1	Idioma, visão	Um líder da indústria na programação. Oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço concentrado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Ideal para potenciar produtos de agentes de vanguarda e funcionalidades.	Cartão do modelo
Claude Opus 4	Idioma, visão	O Claude Opus 4 oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço focado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver.	Cartão do modelo
Claude Sonnet 4	Idioma, visão	Modelo de tamanho médio da Anthropic com inteligência superior para utilizações de grande volume, como programação, investigação detalhada e agentes.	Cartão do modelo
Claude 3.7 Sonnet da Anthropic	Idioma, visão	Modelo líder da indústria para programação e tecnologia de agentes de IA, e o primeiro modelo Claude a oferecer um raciocínio alargado.	Cartão do modelo
Claude 3.5 Sonnet v2 da Anthropic	Idioma, visão	O Claude 3.5 Sonnet atualizado é um modelo de vanguarda para tarefas de engenharia de software do mundo real e capacidades de agente. O Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor.	Cartão do modelo
Claude 3.5 Haiku da Anthropic	Idioma, visão	O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e económico da Anthropic, é ideal para exemplos de utilização em que a velocidade e a acessibilidade são importantes.	Cartão do modelo
Claude 3 Haiku da Anthropic	Idioma	O modelo de visão e texto mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, destinado a experiências de IA perfeitas que imitam as interações humanas.	Cartão do modelo
Claude 3.5 Sonnet da Anthropic	Idioma	O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic numa vasta gama de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermédio da Anthropic, o Claude 3 Sonnet.	Cartão do modelo
Jamba 1.5 Large (pré-visualização)	Idioma	O Jamba 1.5 Large da AI21 Labs foi concebido para oferecer respostas de qualidade superior, elevado débito e preços competitivos em comparação com outros modelos da sua classe de tamanho.	Cartão do modelo
Jamba 1.5 Mini (pré-visualização)	Idioma	O Jamba 1.5 Mini da AI21 Labs está bem equilibrado em termos de qualidade, taxa de transferência e baixo custo.	Cartão do modelo
Mistral OCR (25.05)	Idioma, visão	O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a interpretação de documentos. O modelo compreende cada elemento dos documentos, como conteúdo multimédia, texto, tabelas e equações.	Cartão do modelo
Mistral Small 3.1 (25/03)	Idioma	O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com capacidades multimodais e extensão do contexto.	Cartão do modelo
Mistral Large (24.11)	Idioma	O Mistral Large (24.11) é a versão seguinte do modelo Mistral Large (24.07), agora com capacidades de raciocínio e de chamadas de funções melhoradas.	Cartão do modelo
Codestral (25.01)	Código	Um modelo de vanguarda concebido para a geração de código, incluindo o preenchimento de lacunas e a conclusão de código.	Cartão do modelo

Modelos abertos disponíveis no Model Garden

A tabela seguinte lista os modelos abertos disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
gpt-oss 120B	Idioma	Um modelo de 120 B que oferece um elevado desempenho em tarefas de raciocínio.	Cartão do modelo
gpt-oss 20B	Idioma	Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico.	Cartão do modelo
Qwen3-Next-80B Thinking	Idioma, código	Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo.	Cartão do modelo
Qwen3-Next-80B Instruct	Idioma, código	Um modelo da família de modelos Qwen3-Next, especializado para seguir comandos específicos.	Cartão do modelo
Qwen3 Coder	Idioma, código	Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software.	Cartão do modelo
Qwen3 235B	Idioma	Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida.	Cartão do modelo
DeepSeek-V3.1	Idioma	O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão.	Cartão do modelo
DeepSeek R1 (0528)	Idioma	A versão mais recente do modelo DeepSeek R1 da DeepSeek.	Cartão do modelo
Llama 4 Maverick 17B-128E	Idioma, visão	O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Cartão do modelo
Llama 4 Scout 17B-16E	Idioma, visão	O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Cartão do modelo
Llama 3.3	Idioma	O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B.	Cartão do modelo
Llama 3.2 (pré-visualização)	Idioma, visão	Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de tabelas e gráficos, bem como a geração de legendas de imagens.	Cartão do modelo
Llama 3.1	Idioma	Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria. O Llama 3.1 405B está disponível de forma geral (DG). O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização.	Cartão do modelo

Lista de modelos com receitas de ajuste ou publicação de código aberto no Model Garden

A tabela seguinte indica os modelos de OSS que suportam a otimização de código aberto ou receitas de publicação no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
Llama 4	Idioma, visão	Uma família de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Colab Ficha do modelo
Llama 3.3	Idioma	O modelo de linguagem (conteúdo extenso) (MDL/CE) multilingue Meta Llama 3.3 é um modelo generativo pré-preparado e ajustado por instruções de 70 mil milhões de parâmetros (texto de entrada/texto de saída).	Cartão do modelo
Flux	Vision	Um modelo de transformador de fluxo retificado de 12 mil milhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto.	Cartão do modelo
Prompt Guard	Idioma	Proteja as entradas de MDI/CE contra técnicas de jailbreaking e injeções indiretas.	Cartão do modelo
Llama 3.2	Idioma	Uma coleção de modelos de linguagem (conteúdo extenso) multilingues que são modelos generativos pré-preparados e ajustados por instruções nos tamanhos de 1 mil milhões e 3 mil milhões.	Cartão do modelo
Llama 3.2-Vision	Idioma, visão	Uma coleção de modelos de linguagem (conteúdo extenso) multimodais que são pré-preparados e modelos generativos de raciocínio de imagens ajustados por instruções nos tamanhos de 11 mil milhões e 90 mil milhões. Estes modelos estão otimizados para reconhecimento visual, raciocínio de imagens, legendagem e resposta a perguntas gerais sobre uma imagem.	Cartão do modelo
Llama Guard 3	Idioma	Um modelo pré-treinado Llama-3.1-8B que foi otimizado para a classificação de segurança do conteúdo.	Cartão do modelo
Qwen2	Idioma	Implemente o Qwen2, uma série de modelos de linguagem (conteúdo extenso) de base.	Colab Ficha do modelo
Phi-3	Idioma	Implemente o Phi-3, uma série de modelos de linguagem (conteúdo extenso) de base.	Colab Ficha do modelo
E5	Idioma	Implemente o E5, uma série de modelos de incorporação de texto.	Colab Ficha do modelo
ID instantâneo	Idioma, visão	Implementar o Instant ID, um modelo de geração de texto para imagem que preserva a identidade.	Colab Ficha do modelo
Llama 3	Idioma	Explore e crie com os modelos Llama 3 da Meta (8B, 70B e 405B) no Vertex AI.	Cartão do modelo
Gemma 3n	Idioma, visão e áudio	Modelos de peso aberto (E2B e E4B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
Gemma 3	Idioma, visão	Modelos de peso aberto (1B apenas de texto, 4B, 12B e 27B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
Gemma 2	Idioma	Modelos de ponderação aberta (9 mil milhões e 27 mil milhões de parâmetros) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
Gemma	Idioma	Modelos de peso aberto (2B e 7B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
CodeGemma	Idioma	Modelos de peso aberto (2B e 7B) concebidos para a geração e a conclusão de código, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
PaliGemma 2	Idioma, visão	Modelos de peso aberto de 3B, 10B e 28B concebidos para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
PaliGemma	Idioma, visão	Modelo de peso aberto de 3 mil milhões de parâmetros concebido para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criado a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
ShieldGemma 2	Idioma, visão	Modelo de peso aberto 4B treinado no ponto de verificação de TI de 4B do Gemma 3 para classificação de segurança de imagens em categorias importantes que recebe imagens e produz etiquetas de segurança por política.	Ficha do modelo
TxGemma	Idioma	Modelos de peso aberto (2B, 9B e 27B) concebidos para o desenvolvimento terapêutico e criados com base no Gemma 2.	Ficha do modelo
MedGemma	Idioma, visão	Modelos de peso aberto (4B e 27B) concebidos para o desempenho na compreensão de texto e imagens médicas.	Ficha do modelo
MedSigLIP	Idioma, visão	Modelo de peso aberto (codificador de visão com 400 milhões de parâmetros e codificador de texto com 400 milhões de parâmetros) concebido para codificar imagens médicas e texto num espaço de incorporação comum.	Ficha do modelo
T5Gemma	Idioma	Modelos de codificador-descodificador de ponderação aberta (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Ficha do modelo
Vicuna v1.5	Idioma	Implemente modelos da série Vicuna v1.5, que são modelos de base ajustados a partir do LLama2 para geração de texto.	Cartão do modelo
NLLB	Idioma	Implemente modelos da série NLLB para tradução em vários idiomas.	Cartão do modelo Colab
Mistral-7B	Idioma	Implemente o Mistral-7B, um modelo fundamental para a geração de texto.	Cartão do modelo
BioGPT	Idioma	Implemente o BioGPT, um modelo generativo de texto para o domínio biomédico.	Cartão do modelo Colab
BiomedCLIP	Idioma, visão	Implemente o BiomedCLIP, um modelo fundamental multimodal para o domínio biomédico.	Cartão do modelo Colab
ImageBind	Idioma, visão Áudio	Implemente o ImageBind, um modelo fundamental para a incorporação multimodal.	Cartão do modelo Colab
DITO	Idioma, visão	Ajuste e implemente o DITO, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto.	Cartão do modelo Colab
OWL-ViT v2	Idioma, visão	Implemente o OWL-ViT v2, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto.	Cartão do modelo Colab
FaceStylizer (Mediapipe)	Vision	Um pipeline generativo para transformar imagens de rostos humanos num novo estilo.	Cartão do modelo Colab
Llama 2	Idioma	Ajuste e implemente os modelos de base Llama 2 da Meta (7B, 13B e 70B) na Vertex AI.	Cartão do modelo
Code Llama	Idioma	Implemente os modelos de fundação Code Llama da Meta (7B, 13B e 34B) na Vertex AI.	Cartão do modelo
Falcon-instruct	Idioma	Ajuste e implemente modelos Falcon-instruct (7B e 40B) através da PEFT.	Colab Ficha do modelo
OpenLLaMA	Idioma	Ajuste e implemente modelos OpenLLaMA (3B, 7B e 13B) através da PEFT.	Colab Ficha do modelo
T5-FLAN	Idioma	Ajuste e implemente o T5-FLAN (base, small e large).	Cartão de modelo (pipeline de ajuste preciso incluída)
BERT	Idioma	Ajuste e implemente o BERT usando a PEFT.	Colab Cartão de modelo
BART-large-cnn	Idioma	Implemente o BART, um modelo de transformador codificador-codificador (seq2seq) com um codificador bidirecional (semelhante ao BERT) e um descodificador autorregressivo (semelhante ao GPT).	Colab Cartão de modelo
RoBERTa-large	Idioma	Ajuste e implemente o RoBERTa-large usando a PEFT.	Colab Cartão de modelo
XLM-RoBERTa-large	Idioma	Ajuste e implemente o XLM-RoBERTa-large (uma versão multilingue do RoBERTa) usando a PEFT.	Colab Cartão de modelo
Stable Diffusion XL v1.0	Idioma, visão	Implemente o Stable Diffusion XL v1.0, que suporta a geração de texto para imagem.	Colab Ficha do modelo
Stable Diffusion XL Lightning	Idioma, visão	Implemente o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem.	Colab Ficha do modelo
Stable Diffusion v2.1	Idioma, visão	Ajuste e implemente o Stable Diffusion v2.1 (suporta a geração de texto em imagens) através do Dreambooth.	Colab Cartão de modelo
Stable Diffusion 4x upscaler	Idioma, visão	Implemente o otimizador 4x do Stable Diffusion, que suporta a super-resolução de imagens condicionadas por texto.	Colab Cartão de modelo
InstructPix2Pix	Idioma, visão	Implemente o InstructPix2Pix, que suporta a edição de imagens através de um comando de texto.	Colab Ficha do modelo
Pintura do Stable Diffusion	Idioma, visão	Ajuste e implemente o Stable Diffusion Inpainting, que suporta o preenchimento de uma imagem com máscara através de um comando de texto.	Colab Ficha do modelo
SAM	Idioma, visão	Implemente o Segment Anything, que suporta a segmentação de imagens sem exemplos.	Colab Ficha do modelo
Pic2Word Composed Image Retrieval	Idioma, visão	Implemente o Pic2Word, que suporta a obtenção de imagens compostas multimoda.	Colab Ficha do modelo
BLIP2	Idioma, visão	Implementar o BLIP2, que suporta legendagem de imagens e respostas a perguntas visuais.	Colab Cartão de modelo
OpenCLIP	Idioma, visão	Ajuste e implemente o Open-CLIP, que suporta a classificação zero-shot.	Colab Ficha do modelo
F-VLM	Idioma, visão	Implemente o F-VLM, que suporta a deteção de objetos de imagem de vocabulário aberto.	Colab Ficha do modelo
tfhub/EfficientNetV2	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2.	Colab Cartão de modelo
EfficientNetV2 (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2.	Colab Ficha do modelo
Proprietário/EfficientNetV2	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens EfficientNetV2.	Colab Ficha do modelo
EfficientNetLite (MediaPipe)	Vision	Ajuste o modelo de classificação de imagens EfficientNetLite através do MediaPipe Model Maker.	Colab Ficha do modelo
tfvision/vit	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens ViT.	Colab Cartão de modelo
ViT (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ViT.	Colab Cartão de modelo
Proprietário/ViT	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens ViT.	Colab Cartão de modelo
Proprietário/MaxViT	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens híbrido (CNN + ViT) MaxViT.	Colab Cartão de modelo
ViT (JAX)	Vision	Ajuste e implemente a implementação JAX do modelo de classificação de imagens ViT.	Colab Cartão de modelo
tfvision/SpineNet	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos SpineNet.	Colab Cartão de modelo
Proprietário/Spinenet	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos SpineNet.	Colab Ficha do modelo
tfvision/YOLO	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos de uma fase YOLO.	Colab Cartão de modelo
Proprietário/YOLO	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos de uma fase YOLO.	Colab Cartão de modelo
YOLOv8 (Keras)	Vision	Ajuste e implemente a implementação do Keras do modelo YOLOv8 para deteção de objetos.	Colab Ficha do modelo
tfvision/YOLOv7	Vision	Ajuste e implemente o modelo YOLOv7 para deteção de objetos.	Colab Ficha do modelo
Acompanhamento de objetos de vídeo ByteTrack	Vision	Execute a previsão em lote para o acompanhamento de objetos de vídeo através do rastreador ByteTrack.	Colab Ficha do modelo
ResNeSt (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ResNeSt.	Colab Cartão de modelo
ConvNeXt (TIMM)	Vision	Ajuste e implemente o ConvNeXt, um modelo puramente convolucional para classificação de imagens inspirado no design dos Vision Transformers.	Colab Cartão de modelo
CspNet (TIMM)	Vision	Ajuste e implemente o modelo de classificação de imagens CSPNet (Cross Stage Partial Network).	Colab Cartão de modelo
Inception (TIMM)	Vision	Ajuste e implemente o modelo de classificação de imagens Inception.	Colab Cartão de modelo
DeepLabv3+ (com ponto de verificação)	Vision	Ajuste e implemente o modelo DeepLab-v3 Plus para a segmentação semântica de imagens.	Colab Cartão de modelo
Faster R-CNN (Detectron2)	Vision	Otimize e implemente a implementação do Detectron2 do modelo Faster R-CNN para a deteção de objetos em imagens.	Colab Cartão de modelo
RetinaNet (Detectron2)	Vision	Ajuste e implemente a implementação do Detectron2 do modelo RetinaNet para a deteção de objetos em imagens.	Colab Cartão de modelo
Mask R-CNN (Detectron2)	Vision	Ajuste e implemente a implementação do Detectron2 do modelo Mask R-CNN para a deteção e segmentação de objetos de imagem.	Colab Cartão de modelo
ControlNet	Vision	Ajuste e implemente o modelo de geração de texto para imagem ControlNet.	Colab Cartão de modelo
MobileNet (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens MobileNet.	Colab Cartão de modelo
Classificação de imagens MobileNetV2 (MediaPipe)	Vision	Ajuste o modelo de classificação de imagens MobileNetV2 com o MediaPipe Model Maker.	Colab Cartão de modelo
Deteção de objetos MobileNetV2 (MediaPipe)	Vision	Ajuste o modelo de deteção de objetos MobileNetV2 através do MediaPipe Model Maker.	Colab Cartão de modelo
MobileNet-MultiHW-AVG (MediaPipe)	Vision	Ajuste o modelo de deteção de objetos MobileNet-MultiHW-AVG usando o MediaPipe Model Maker.	Colab Cartão de modelo
DeiT	Vision	Ajuste e implemente o modelo DeiT (Data-efficient Image Transformers) para a classificação de imagens.	Colab Cartão de modelo
BEiT	Vision	Ajuste e implemente o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para a classificação de imagens.	Colab Cartão de modelo
Reconhecimento de gestos com a mão (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos de reconhecimento de gestos com as mãos através do MediaPipe.	Colab Ficha do modelo
Classificador de incorporação de palavras médio (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos de classificador de incorporação de palavras média através do MediaPipe.	Colab Ficha do modelo
Classificador MobileBERT (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos do classificador MobileBERT através do MediaPipe.	Colab Ficha do modelo
Classificação de clipes de vídeo com a MoViNet	Vídeo	Ajuste e implemente modelos de classificação de clipes de vídeo MoViNet.	Colab Ficha do modelo
Reconhecimento de ações de vídeo MoViNet	Vídeo	Ajuste e implemente modelos MoViNet para a inferência de reconhecimento de ações.	Colab Ficha do modelo
Stable Diffusion XL LCM	Vision	Implemente este modelo que usa o modelo de consistência latente (LCM) para melhorar a geração de texto em imagens nos modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade com menos passos.	Colab Ficha do modelo
LLaVA 1.5	Visão, idioma	Implemente modelos LLaVA 1.5.	Colab Ficha do modelo
Pytorch-ZipNeRF	Visão, vídeo	Forme o modelo Pytorch-ZipNeRF, que é uma implementação de ponta do algoritmo ZipNeRF na framework Pytorch, concebida para uma reconstrução 3D eficiente e precisa a partir de imagens 2D.	Colab Ficha do modelo
Mixtral	Idioma	Implemente o modelo Mixtral, que é um modelo de linguagem (conteúdo extenso) (MDL/CE) de mistura de especialistas (MoE) desenvolvido pela Mistral AI.	Cartão do modelo
Llama 2 (quantizado)	Idioma	Ajuste e implemente uma versão quantizada dos modelos Llama 2 da Meta.	Colab Ficha do modelo
LaMa (Large Mask Inpainting)	Vision	Implemente o LaMa, que usa convoluções rápidas de Fourier (FFCs), uma perda percetual de campo recetivo elevado e grandes máscaras de preparação, o que permite o preenchimento de imagens robusto em termos de resolução.	Colab Ficha do modelo
AutoGluon	Tabular	Com o AutoGluon, pode preparar e implementar modelos de aprendizagem automática e aprendizagem profunda de alta precisão para dados tabulares.	Colab Ficha do modelo
MaMMUT	Idioma, visão	Uma arquitetura de codificador de visão e descodificador de texto para tarefas multimodais, como resposta a perguntas visuais, obtenção de imagens e texto, obtenção de texto e imagens, e geração de incorporações multimodais.	Colab Ficha do modelo
Whisper Large	Voz	Implemente o Whisper Large, o modelo de vanguarda da OpenAI para o reconhecimento de voz automático (ASR).	Colab Ficha do modelo