Modelos suportados pelo Model Garden

Lista de modelos originais da Google

A tabela seguinte apresenta os modelos originais da Google disponíveis no Model Garden:

Nome do modelo Modalidade Descrição Inícios rápidos
Gemini 2.5 Flash (pré-visualização) Idioma, áudio e visão Modelo de raciocínio concebido para equilibrar o preço e o desempenho. Cartão do modelo
Gemini 2.5 Pro (pré-visualização) Idioma, áudio e visão Modelo de raciocínio com funcionalidades de próxima geração e capacidades melhoradas. Cartão do modelo
Gemini 2.0 Flash Idioma, áudio e visão O modelo mais usado para todas as tarefas diárias e funcionalidades com desempenho melhorado e suporte para a API Live em tempo real. Cartão do modelo
Gemini 2.0 Flash-Lite Idioma, áudio e visão O modelo Flash mais rápido e económico. Oferece uma qualidade superior à do 1.5 pelo mesmo preço e velocidade. Cartão do modelo
Imagen para geração de imagens Vision Crie imagens de qualidade profissional em grande escala através de comandos de texto. Também pode usar este modelo para aumentar a resolução das imagens. Cartão do modelo
Imagen para edição e personalização Vision Edite ou use a aprendizagem com poucos exemplos para criar imagens com qualidade de estúdio em grande escala usando imagens base e comandos de texto, ou usando imagens de referência e comandos de texto. Cartão do modelo
Vertex Image Segmentation (pré-visualização) Vision Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite-lhe, por exemplo, detetar objetos, remover o fundo de uma imagem ou segmentar o primeiro plano de uma imagem. Cartão do modelo
Imagen para legendagem e VQA Idioma Gera uma descrição relevante para uma determinada imagem. Cartão do modelo
Incorporações para texto Idioma Gera vetores com base no texto, que podem ser usados para tarefas posteriores, como pesquisa semântica, classificação de texto e análise de sentimentos. Cartão do modelo
Incorporações para multimodal Vision Gera vetores com base em imagens, que podem ser usados para tarefas posteriores, como classificação de imagens e pesquisa de imagens. Cartão do modelo
Chirp 2 Voz O Chirp 2 é um modelo de reconhecimento de voz automático (ASR) multilingue desenvolvido pela Google que transcreve a voz (voz para texto). Em comparação com a primeira geração de modelos Chirp, o Chirp 2 oferece maior precisão e velocidade, e disponibiliza novas capacidades, como datas/horas ao nível das palavras, adaptação do modelo e tradução de voz. Cartão do modelo

Lista de modelos geridos disponíveis no Model Garden

Os modelos são oferecidos como APIs geridas no Vertex AI Model Garden (também conhecido como modelo como serviço).

Modelos de parceiros disponíveis no Model Garden

A tabela seguinte lista os modelos de parceiros disponíveis no Model Garden:

Nome do modelo Modalidade Descrição Início rápido
Claude Opus 4.1 Idioma, visão Um líder da indústria na programação. Oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço concentrado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Ideal para potenciar produtos de agentes de vanguarda e funcionalidades. Cartão do modelo
Claude Opus 4 Idioma, visão O Claude Opus 4 oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço focado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Cartão do modelo
Claude Sonnet 4 Idioma, visão Modelo de tamanho médio da Anthropic com inteligência superior para utilizações de grande volume, como programação, investigação detalhada e agentes. Cartão do modelo
Claude 3.7 Sonnet da Anthropic Idioma, visão Modelo líder da indústria para programação e tecnologia de agentes de IA, e o primeiro modelo Claude a oferecer um raciocínio alargado. Cartão do modelo
Claude 3.5 Sonnet v2 da Anthropic Idioma, visão O Claude 3.5 Sonnet atualizado é um modelo de vanguarda para tarefas de engenharia de software do mundo real e capacidades de agente. O Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor. Cartão do modelo
Claude 3.5 Haiku da Anthropic Idioma, visão O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e económico da Anthropic, é ideal para exemplos de utilização em que a velocidade e a acessibilidade são importantes. Cartão do modelo
Claude 3 Haiku da Anthropic Idioma O modelo de visão e texto mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, destinado a experiências de IA perfeitas que imitam as interações humanas. Cartão do modelo
Claude 3.5 Sonnet da Anthropic Idioma O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic numa vasta gama de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermédio da Anthropic, o Claude 3 Sonnet. Cartão do modelo
Jamba 1.5 Large (pré-visualização) Idioma O Jamba 1.5 Large da AI21 Labs foi concebido para oferecer respostas de qualidade superior, elevado débito e preços competitivos em comparação com outros modelos da sua classe de tamanho. Cartão do modelo
Jamba 1.5 Mini (pré-visualização) Idioma O Jamba 1.5 Mini da AI21 Labs está bem equilibrado em termos de qualidade, taxa de transferência e baixo custo. Cartão do modelo
Mistral OCR (25.05) Idioma, visão O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a interpretação de documentos. O modelo compreende cada elemento dos documentos, como conteúdo multimédia, texto, tabelas e equações. Cartão do modelo
Mistral Small 3.1 (25/03) Idioma O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com capacidades multimodais e extensão do contexto. Cartão do modelo
Mistral Large (24.11) Idioma O Mistral Large (24.11) é a versão seguinte do modelo Mistral Large (24.07), agora com capacidades de raciocínio e de chamadas de funções melhoradas. Cartão do modelo
Codestral (25.01) Código Um modelo de vanguarda concebido para a geração de código, incluindo o preenchimento de lacunas e a conclusão de código. Cartão do modelo

Modelos abertos disponíveis no Model Garden

A tabela seguinte lista os modelos abertos disponíveis no Model Garden:

Nome do modelo Modalidade Descrição Início rápido
gpt-oss 120B Idioma Um modelo de 120 B que oferece um elevado desempenho em tarefas de raciocínio. Cartão do modelo
gpt-oss 20B Idioma Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico. Cartão do modelo
Qwen3-Next-80B Thinking Idioma, código Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo. Cartão do modelo
Qwen3-Next-80B Instruct Idioma, código Um modelo da família de modelos Qwen3-Next, especializado para seguir comandos específicos. Cartão do modelo
Qwen3 Coder Idioma, código Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software. Cartão do modelo
Qwen3 235B Idioma Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida. Cartão do modelo
DeepSeek-V3.1 Idioma O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão. Cartão do modelo
DeepSeek R1 (0528) Idioma A versão mais recente do modelo DeepSeek R1 da DeepSeek. Cartão do modelo
Llama 4 Maverick 17B-128E Idioma, visão O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. Cartão do modelo
Llama 4 Scout 17B-16E Idioma, visão O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. Cartão do modelo
Llama 3.3 Idioma O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B. Cartão do modelo
Llama 3.2 (pré-visualização) Idioma, visão Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de tabelas e gráficos, bem como a geração de legendas de imagens. Cartão do modelo
Llama 3.1 Idioma

Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria.

O Llama 3.1 405B está disponível de forma geral (DG).

O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização.

Cartão do modelo

Lista de modelos com receitas de ajuste ou publicação de código aberto no Model Garden

A tabela seguinte indica os modelos de OSS que suportam a otimização de código aberto ou receitas de publicação no Model Garden:

Nome do modelo Modalidade Descrição Início rápido
Llama 4 Idioma, visão Uma família de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. Colab
Ficha do modelo
Llama 3.3 Idioma O modelo de linguagem (conteúdo extenso) (MDL/CE) multilingue Meta Llama 3.3 é um modelo generativo pré-preparado e ajustado por instruções de 70 mil milhões de parâmetros (texto de entrada/texto de saída). Cartão do modelo
Flux Vision Um modelo de transformador de fluxo retificado de 12 mil milhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto. Cartão do modelo
Prompt Guard Idioma Proteja as entradas de MDI/CE contra técnicas de jailbreaking e injeções indiretas. Cartão do modelo
Llama 3.2 Idioma Uma coleção de modelos de linguagem (conteúdo extenso) multilingues que são modelos generativos pré-preparados e ajustados por instruções nos tamanhos de 1 mil milhões e 3 mil milhões. Cartão do modelo
Llama 3.2-Vision Idioma, visão Uma coleção de modelos de linguagem (conteúdo extenso) multimodais que são pré-preparados e modelos generativos de raciocínio de imagens ajustados por instruções nos tamanhos de 11 mil milhões e 90 mil milhões. Estes modelos estão otimizados para reconhecimento visual, raciocínio de imagens, legendagem e resposta a perguntas gerais sobre uma imagem. Cartão do modelo
Llama Guard 3 Idioma Um modelo pré-treinado Llama-3.1-8B que foi otimizado para a classificação de segurança do conteúdo. Cartão do modelo
Qwen2 Idioma Implemente o Qwen2, uma série de modelos de linguagem (conteúdo extenso) de base. Colab
Ficha do modelo
Phi-3 Idioma Implemente o Phi-3, uma série de modelos de linguagem (conteúdo extenso) de base. Colab
Ficha do modelo
E5 Idioma Implemente o E5, uma série de modelos de incorporação de texto. Colab
Ficha do modelo
ID instantâneo Idioma, visão Implementar o Instant ID, um modelo de geração de texto para imagem que preserva a identidade. Colab
Ficha do modelo
Llama 3 Idioma Explore e crie com os modelos Llama 3 da Meta (8B, 70B e 405B) no Vertex AI. Cartão do modelo
Gemma 3n Idioma, visão e áudio Modelos de peso aberto (E2B e E4B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
Gemma 3 Idioma, visão Modelos de peso aberto (1B apenas de texto, 4B, 12B e 27B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
Gemma 2 Idioma Modelos de ponderação aberta (9 mil milhões e 27 mil milhões de parâmetros) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
Gemma Idioma Modelos de peso aberto (2B e 7B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
CodeGemma Idioma Modelos de peso aberto (2B e 7B) concebidos para a geração e a conclusão de código, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
PaliGemma 2 Idioma, visão Modelos de peso aberto de 3B, 10B e 28B concebidos para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
PaliGemma Idioma, visão Modelo de peso aberto de 3 mil milhões de parâmetros concebido para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criado a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
ShieldGemma 2 Idioma, visão Modelo de peso aberto 4B treinado no ponto de verificação de TI de 4B do Gemma 3 para classificação de segurança de imagens em categorias importantes que recebe imagens e produz etiquetas de segurança por política. Ficha do modelo
TxGemma Idioma Modelos de peso aberto (2B, 9B e 27B) concebidos para o desenvolvimento terapêutico e criados com base no Gemma 2. Ficha do modelo
MedGemma Idioma, visão Modelos de peso aberto (4B e 27B) concebidos para o desempenho na compreensão de texto e imagens médicas. Ficha do modelo
MedSigLIP Idioma, visão Modelo de peso aberto (codificador de visão com 400 milhões de parâmetros e codificador de texto com 400 milhões de parâmetros) concebido para codificar imagens médicas e texto num espaço de incorporação comum. Ficha do modelo
T5Gemma Idioma Modelos de codificador-descodificador de ponderação aberta (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. Ficha do modelo
Vicuna v1.5 Idioma Implemente modelos da série Vicuna v1.5, que são modelos de base ajustados a partir do LLama2 para geração de texto. Cartão do modelo
NLLB Idioma Implemente modelos da série NLLB para tradução em vários idiomas. Cartão do modelo
Colab
Mistral-7B Idioma Implemente o Mistral-7B, um modelo fundamental para a geração de texto. Cartão do modelo
BioGPT Idioma Implemente o BioGPT, um modelo generativo de texto para o domínio biomédico. Cartão do modelo
Colab
BiomedCLIP Idioma, visão Implemente o BiomedCLIP, um modelo fundamental multimodal para o domínio biomédico. Cartão do modelo
Colab
ImageBind Idioma, visão
Áudio
Implemente o ImageBind, um modelo fundamental para a incorporação multimodal. Cartão do modelo
Colab
DITO Idioma, visão Ajuste e implemente o DITO, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. Cartão do modelo
Colab
OWL-ViT v2 Idioma, visão Implemente o OWL-ViT v2, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. Cartão do modelo
Colab
FaceStylizer (Mediapipe) Vision Um pipeline generativo para transformar imagens de rostos humanos num novo estilo. Cartão do modelo
Colab
Llama 2 Idioma Ajuste e implemente os modelos de base Llama 2 da Meta (7B, 13B e 70B) na Vertex AI. Cartão do modelo
Code Llama Idioma Implemente os modelos de fundação Code Llama da Meta (7B, 13B e 34B) na Vertex AI. Cartão do modelo
Falcon-instruct Idioma Ajuste e implemente modelos Falcon-instruct (7B e 40B) através da PEFT. Colab
Ficha do modelo
OpenLLaMA Idioma Ajuste e implemente modelos OpenLLaMA (3B, 7B e 13B) através da PEFT. Colab
Ficha do modelo
T5-FLAN Idioma Ajuste e implemente o T5-FLAN (base, small e large). Cartão de modelo (pipeline de ajuste preciso incluída)
BERT Idioma Ajuste e implemente o BERT usando a PEFT. Colab
Cartão de modelo
BART-large-cnn Idioma Implemente o BART, um modelo de transformador codificador-codificador (seq2seq) com um codificador bidirecional (semelhante ao BERT) e um descodificador autorregressivo (semelhante ao GPT). Colab
Cartão de modelo
RoBERTa-large Idioma Ajuste e implemente o RoBERTa-large usando a PEFT. Colab
Cartão de modelo
XLM-RoBERTa-large Idioma Ajuste e implemente o XLM-RoBERTa-large (uma versão multilingue do RoBERTa) usando a PEFT. Colab
Cartão de modelo
Stable Diffusion XL v1.0 Idioma, visão Implemente o Stable Diffusion XL v1.0, que suporta a geração de texto para imagem. Colab
Ficha do modelo
Stable Diffusion XL Lightning Idioma, visão Implemente o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem. Colab
Ficha do modelo
Stable Diffusion v2.1 Idioma, visão Ajuste e implemente o Stable Diffusion v2.1 (suporta a geração de texto em imagens) através do Dreambooth. Colab
Cartão de modelo
Stable Diffusion 4x upscaler Idioma, visão Implemente o otimizador 4x do Stable Diffusion, que suporta a super-resolução de imagens condicionadas por texto. Colab
Cartão de modelo
InstructPix2Pix Idioma, visão Implemente o InstructPix2Pix, que suporta a edição de imagens através de um comando de texto. Colab
Ficha do modelo
Pintura do Stable Diffusion Idioma, visão Ajuste e implemente o Stable Diffusion Inpainting, que suporta o preenchimento de uma imagem com máscara através de um comando de texto. Colab
Ficha do modelo
SAM Idioma, visão Implemente o Segment Anything, que suporta a segmentação de imagens sem exemplos. Colab
Ficha do modelo
Pic2Word Composed Image Retrieval Idioma, visão Implemente o Pic2Word, que suporta a obtenção de imagens compostas multimoda. Colab
Ficha do modelo
BLIP2 Idioma, visão Implementar o BLIP2, que suporta legendagem de imagens e respostas a perguntas visuais. Colab
Cartão de modelo
OpenCLIP Idioma, visão Ajuste e implemente o Open-CLIP, que suporta a classificação zero-shot. Colab
Ficha do modelo
F-VLM Idioma, visão Implemente o F-VLM, que suporta a deteção de objetos de imagem de vocabulário aberto. Colab
Ficha do modelo
tfhub/EfficientNetV2 Vision Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2. Colab
Cartão de modelo
EfficientNetV2 (TIMM) Vision Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2. Colab
Ficha do modelo
Proprietário/EfficientNetV2 Vision Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens EfficientNetV2. Colab
Ficha do modelo
EfficientNetLite (MediaPipe) Vision Ajuste o modelo de classificação de imagens EfficientNetLite através do MediaPipe Model Maker. Colab
Ficha do modelo
tfvision/vit Vision Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens ViT. Colab
Cartão de modelo
ViT (TIMM) Vision Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ViT. Colab
Cartão de modelo
Proprietário/ViT Vision Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens ViT. Colab
Cartão de modelo
Proprietário/MaxViT Vision Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens híbrido (CNN + ViT) MaxViT. Colab
Cartão de modelo
ViT (JAX) Vision Ajuste e implemente a implementação JAX do modelo de classificação de imagens ViT. Colab
Cartão de modelo
tfvision/SpineNet Vision Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos SpineNet. Colab
Cartão de modelo
Proprietário/Spinenet Vision Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos SpineNet. Colab
Ficha do modelo
tfvision/YOLO Vision Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos de uma fase YOLO. Colab
Cartão de modelo
Proprietário/YOLO Vision Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos de uma fase YOLO. Colab
Cartão de modelo
YOLOv8 (Keras) Vision Ajuste e implemente a implementação do Keras do modelo YOLOv8 para deteção de objetos. Colab
Ficha do modelo
tfvision/YOLOv7 Vision Ajuste e implemente o modelo YOLOv7 para deteção de objetos. Colab
Ficha do modelo
Acompanhamento de objetos de vídeo ByteTrack Vision Execute a previsão em lote para o acompanhamento de objetos de vídeo através do rastreador ByteTrack. Colab
Ficha do modelo
ResNeSt (TIMM) Vision Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ResNeSt. Colab
Cartão de modelo
ConvNeXt (TIMM) Vision Ajuste e implemente o ConvNeXt, um modelo puramente convolucional para classificação de imagens inspirado no design dos Vision Transformers. Colab
Cartão de modelo
CspNet (TIMM) Vision Ajuste e implemente o modelo de classificação de imagens CSPNet (Cross Stage Partial Network). Colab
Cartão de modelo
Inception (TIMM) Vision Ajuste e implemente o modelo de classificação de imagens Inception. Colab
Cartão de modelo
DeepLabv3+ (com ponto de verificação) Vision Ajuste e implemente o modelo DeepLab-v3 Plus para a segmentação semântica de imagens. Colab
Cartão de modelo
Faster R-CNN (Detectron2) Vision Otimize e implemente a implementação do Detectron2 do modelo Faster R-CNN para a deteção de objetos em imagens. Colab
Cartão de modelo
RetinaNet (Detectron2) Vision Ajuste e implemente a implementação do Detectron2 do modelo RetinaNet para a deteção de objetos em imagens. Colab
Cartão de modelo
Mask R-CNN (Detectron2) Vision Ajuste e implemente a implementação do Detectron2 do modelo Mask R-CNN para a deteção e segmentação de objetos de imagem. Colab
Cartão de modelo
ControlNet Vision Ajuste e implemente o modelo de geração de texto para imagem ControlNet. Colab
Cartão de modelo
MobileNet (TIMM) Vision Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens MobileNet. Colab
Cartão de modelo
Classificação de imagens MobileNetV2 (MediaPipe) Vision Ajuste o modelo de classificação de imagens MobileNetV2 com o MediaPipe Model Maker. Colab
Cartão de modelo
Deteção de objetos MobileNetV2 (MediaPipe) Vision Ajuste o modelo de deteção de objetos MobileNetV2 através do MediaPipe Model Maker. Colab
Cartão de modelo
MobileNet-MultiHW-AVG (MediaPipe) Vision Ajuste o modelo de deteção de objetos MobileNet-MultiHW-AVG usando o MediaPipe Model Maker. Colab
Cartão de modelo
DeiT Vision Ajuste e implemente o modelo DeiT (Data-efficient Image Transformers) para a classificação de imagens. Colab
Cartão de modelo
BEiT Vision Ajuste e implemente o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para a classificação de imagens. Colab
Cartão de modelo
Reconhecimento de gestos com a mão (MediaPipe) Vision Ajuste e implemente no dispositivo os modelos de reconhecimento de gestos com as mãos através do MediaPipe. Colab
Ficha do modelo
Classificador de incorporação de palavras médio (MediaPipe) Vision Ajuste e implemente no dispositivo os modelos de classificador de incorporação de palavras média através do MediaPipe. Colab
Ficha do modelo
Classificador MobileBERT (MediaPipe) Vision Ajuste e implemente no dispositivo os modelos do classificador MobileBERT através do MediaPipe. Colab
Ficha do modelo
Classificação de clipes de vídeo com a MoViNet Vídeo Ajuste e implemente modelos de classificação de clipes de vídeo MoViNet. Colab
Ficha do modelo
Reconhecimento de ações de vídeo MoViNet Vídeo Ajuste e implemente modelos MoViNet para a inferência de reconhecimento de ações. Colab
Ficha do modelo
Stable Diffusion XL LCM Vision Implemente este modelo que usa o modelo de consistência latente (LCM) para melhorar a geração de texto em imagens nos modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade com menos passos. Colab
Ficha do modelo
LLaVA 1.5 Visão, idioma Implemente modelos LLaVA 1.5. Colab
Ficha do modelo
Pytorch-ZipNeRF Visão, vídeo Forme o modelo Pytorch-ZipNeRF, que é uma implementação de ponta do algoritmo ZipNeRF na framework Pytorch, concebida para uma reconstrução 3D eficiente e precisa a partir de imagens 2D. Colab
Ficha do modelo
Mixtral Idioma Implemente o modelo Mixtral, que é um modelo de linguagem (conteúdo extenso) (MDL/CE) de mistura de especialistas (MoE) desenvolvido pela Mistral AI. Cartão do modelo
Llama 2 (quantizado) Idioma Ajuste e implemente uma versão quantizada dos modelos Llama 2 da Meta. Colab
Ficha do modelo
LaMa (Large Mask Inpainting) Vision Implemente o LaMa, que usa convoluções rápidas de Fourier (FFCs), uma perda percetual de campo recetivo elevado e grandes máscaras de preparação, o que permite o preenchimento de imagens robusto em termos de resolução. Colab
Ficha do modelo
AutoGluon Tabular Com o AutoGluon, pode preparar e implementar modelos de aprendizagem automática e aprendizagem profunda de alta precisão para dados tabulares. Colab
Ficha do modelo
MaMMUT Idioma, visão Uma arquitetura de codificador de visão e descodificador de texto para tarefas multimodais, como resposta a perguntas visuais, obtenção de imagens e texto, obtenção de texto e imagens, e geração de incorporações multimodais. Colab
Ficha do modelo
Whisper Large Voz Implemente o Whisper Large, o modelo de vanguarda da OpenAI para o reconhecimento de voz automático (ASR). Colab
Ficha do modelo