Lista de modelos originais da Google
A tabela seguinte apresenta os modelos originais da Google disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Inícios rápidos |
---|---|---|---|
Gemini 2.5 Flash (pré-visualização) | Idioma, áudio e visão | Modelo de raciocínio concebido para equilibrar o preço e o desempenho. | Cartão do modelo |
Gemini 2.5 Pro (pré-visualização) | Idioma, áudio e visão | Modelo de raciocínio com funcionalidades de próxima geração e capacidades melhoradas. | Cartão do modelo |
Gemini 2.0 Flash | Idioma, áudio e visão | O modelo mais usado para todas as tarefas diárias e funcionalidades com desempenho melhorado e suporte para a API Live em tempo real. | Cartão do modelo |
Gemini 2.0 Flash-Lite | Idioma, áudio e visão | O modelo Flash mais rápido e económico. Oferece uma qualidade superior à do 1.5 pelo mesmo preço e velocidade. | Cartão do modelo |
Imagen para geração de imagens | Vision | Crie imagens de qualidade profissional em grande escala através de comandos de texto. Também pode usar este modelo para aumentar a resolução das imagens. | Cartão do modelo |
Imagen para edição e personalização | Vision | Edite ou use a aprendizagem com poucos exemplos para criar imagens com qualidade de estúdio em grande escala usando imagens base e comandos de texto, ou usando imagens de referência e comandos de texto. | Cartão do modelo |
Vertex Image Segmentation (pré-visualização) | Vision | Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite-lhe, por exemplo, detetar objetos, remover o fundo de uma imagem ou segmentar o primeiro plano de uma imagem. | Cartão do modelo |
Imagen para legendagem e VQA | Idioma | Gera uma descrição relevante para uma determinada imagem. | Cartão do modelo |
Incorporações para texto | Idioma | Gera vetores com base no texto, que podem ser usados para tarefas posteriores, como pesquisa semântica, classificação de texto e análise de sentimentos. | Cartão do modelo |
Incorporações para multimodal | Vision | Gera vetores com base em imagens, que podem ser usados para tarefas posteriores, como classificação de imagens e pesquisa de imagens. | Cartão do modelo |
Chirp 2 | Voz | O Chirp 2 é um modelo de reconhecimento de voz automático (ASR) multilingue desenvolvido pela Google que transcreve a voz (voz para texto). Em comparação com a primeira geração de modelos Chirp, o Chirp 2 oferece maior precisão e velocidade, e disponibiliza novas capacidades, como datas/horas ao nível das palavras, adaptação do modelo e tradução de voz. | Cartão do modelo |
Lista de modelos geridos disponíveis no Model Garden
Os modelos são oferecidos como APIs geridas no Vertex AI Model Garden (também conhecido como modelo como serviço).
Modelos de parceiros disponíveis no Model Garden
A tabela seguinte lista os modelos de parceiros disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Início rápido |
---|---|---|---|
Claude Opus 4.1 | Idioma, visão | Um líder da indústria na programação. Oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço concentrado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Ideal para potenciar produtos de agentes de vanguarda e funcionalidades. | Cartão do modelo |
Claude Opus 4 | Idioma, visão | O Claude Opus 4 oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço focado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. | Cartão do modelo |
Claude Sonnet 4 | Idioma, visão | Modelo de tamanho médio da Anthropic com inteligência superior para utilizações de grande volume, como programação, investigação detalhada e agentes. | Cartão do modelo |
Claude 3.7 Sonnet da Anthropic | Idioma, visão | Modelo líder da indústria para programação e tecnologia de agentes de IA, e o primeiro modelo Claude a oferecer um raciocínio alargado. | Cartão do modelo |
Claude 3.5 Sonnet v2 da Anthropic | Idioma, visão | O Claude 3.5 Sonnet atualizado é um modelo de vanguarda para tarefas de engenharia de software do mundo real e capacidades de agente. O Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor. | Cartão do modelo |
Claude 3.5 Haiku da Anthropic | Idioma, visão | O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e económico da Anthropic, é ideal para exemplos de utilização em que a velocidade e a acessibilidade são importantes. | Cartão do modelo |
Claude 3 Haiku da Anthropic | Idioma | O modelo de visão e texto mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, destinado a experiências de IA perfeitas que imitam as interações humanas. | Cartão do modelo |
Claude 3.5 Sonnet da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic numa vasta gama de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermédio da Anthropic, o Claude 3 Sonnet. | Cartão do modelo |
Jamba 1.5 Large (pré-visualização) | Idioma | O Jamba 1.5 Large da AI21 Labs foi concebido para oferecer respostas de qualidade superior, elevado débito e preços competitivos em comparação com outros modelos da sua classe de tamanho. | Cartão do modelo |
Jamba 1.5 Mini (pré-visualização) | Idioma | O Jamba 1.5 Mini da AI21 Labs está bem equilibrado em termos de qualidade, taxa de transferência e baixo custo. | Cartão do modelo |
Mistral OCR (25.05) | Idioma, visão | O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a interpretação de documentos. O modelo compreende cada elemento dos documentos, como conteúdo multimédia, texto, tabelas e equações. | Cartão do modelo |
Mistral Small 3.1 (25/03) | Idioma | O Mistral Small 3.1 (25/03) é a versão mais recente do modelo Small da Mistral, com capacidades multimodais e extensão do contexto. | Cartão do modelo |
Mistral Large (24.11) | Idioma | O Mistral Large (24.11) é a versão seguinte do modelo Mistral Large (24.07), agora com capacidades de raciocínio e de chamadas de funções melhoradas. | Cartão do modelo |
Codestral (25.01) | Código | Um modelo de vanguarda concebido para a geração de código, incluindo o preenchimento de lacunas e a conclusão de código. | Cartão do modelo |
Modelos abertos disponíveis no Model Garden
A tabela seguinte lista os modelos abertos disponíveis no Model Garden:
Nome do modelo | Modalidade | Descrição | Início rápido |
---|---|---|---|
gpt-oss 120B | Idioma | Um modelo de 120 B que oferece um elevado desempenho em tarefas de raciocínio. | Cartão do modelo |
gpt-oss 20B | Idioma | Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico. | Cartão do modelo |
Qwen3-Next-80B Thinking | Idioma, código | Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo. | Cartão do modelo |
Qwen3-Next-80B Instruct | Idioma, código | Um modelo da família de modelos Qwen3-Next, especializado para seguir comandos específicos. | Cartão do modelo |
Qwen3 Coder | Idioma, código | Um modelo de peso aberto desenvolvido para tarefas avançadas de desenvolvimento de software. | Cartão do modelo |
Qwen3 235B | Idioma | Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida. | Cartão do modelo |
DeepSeek-V3.1 | Idioma | O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão. | Cartão do modelo |
DeepSeek R1 (0528) | Idioma | A versão mais recente do modelo DeepSeek R1 da DeepSeek. | Cartão do modelo |
Llama 4 Maverick 17B-128E | Idioma, visão | O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Cartão do modelo |
Llama 4 Scout 17B-16E | Idioma, visão | O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Cartão do modelo |
Llama 3.3 | Idioma | O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B. | Cartão do modelo |
Llama 3.2 (pré-visualização) | Idioma, visão | Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de tabelas e gráficos, bem como a geração de legendas de imagens. | Cartão do modelo |
Llama 3.1 | Idioma |
Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria. O Llama 3.1 405B está disponível de forma geral (DG). O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização. |
Cartão do modelo |
Lista de modelos com receitas de ajuste ou publicação de código aberto no Model Garden
A tabela seguinte indica os modelos de OSS que suportam a otimização de código aberto ou receitas de publicação no Model Garden:
Nome do modelo | Modalidade | Descrição | Início rápido |
---|---|---|---|
Llama 4 | Idioma, visão | Uma família de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Colab Ficha do modelo |
Llama 3.3 | Idioma | O modelo de linguagem (conteúdo extenso) (MDL/CE) multilingue Meta Llama 3.3 é um modelo generativo pré-preparado e ajustado por instruções de 70 mil milhões de parâmetros (texto de entrada/texto de saída). | Cartão do modelo |
Flux | Vision | Um modelo de transformador de fluxo retificado de 12 mil milhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto. | Cartão do modelo |
Prompt Guard | Idioma | Proteja as entradas de MDI/CE contra técnicas de jailbreaking e injeções indiretas. | Cartão do modelo |
Llama 3.2 | Idioma | Uma coleção de modelos de linguagem (conteúdo extenso) multilingues que são modelos generativos pré-preparados e ajustados por instruções nos tamanhos de 1 mil milhões e 3 mil milhões. | Cartão do modelo |
Llama 3.2-Vision | Idioma, visão | Uma coleção de modelos de linguagem (conteúdo extenso) multimodais que são pré-preparados e modelos generativos de raciocínio de imagens ajustados por instruções nos tamanhos de 11 mil milhões e 90 mil milhões. Estes modelos estão otimizados para reconhecimento visual, raciocínio de imagens, legendagem e resposta a perguntas gerais sobre uma imagem. | Cartão do modelo |
Llama Guard 3 | Idioma | Um modelo pré-treinado Llama-3.1-8B que foi otimizado para a classificação de segurança do conteúdo. | Cartão do modelo |
Qwen2 | Idioma | Implemente o Qwen2, uma série de modelos de linguagem (conteúdo extenso) de base. | Colab Ficha do modelo |
Phi-3 | Idioma | Implemente o Phi-3, uma série de modelos de linguagem (conteúdo extenso) de base. | Colab Ficha do modelo |
E5 | Idioma | Implemente o E5, uma série de modelos de incorporação de texto. | Colab Ficha do modelo |
ID instantâneo | Idioma, visão | Implementar o Instant ID, um modelo de geração de texto para imagem que preserva a identidade. | Colab Ficha do modelo |
Llama 3 | Idioma | Explore e crie com os modelos Llama 3 da Meta (8B, 70B e 405B) no Vertex AI. | Cartão do modelo |
Gemma 3n | Idioma, visão e áudio | Modelos de peso aberto (E2B e E4B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
Gemma 3 | Idioma, visão | Modelos de peso aberto (1B apenas de texto, 4B, 12B e 27B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
Gemma 2 | Idioma | Modelos de ponderação aberta (9 mil milhões e 27 mil milhões de parâmetros) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
Gemma | Idioma | Modelos de peso aberto (2B e 7B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
CodeGemma | Idioma | Modelos de peso aberto (2B e 7B) concebidos para a geração e a conclusão de código, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
PaliGemma 2 | Idioma, visão | Modelos de peso aberto de 3B, 10B e 28B concebidos para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
PaliGemma | Idioma, visão | Modelo de peso aberto de 3 mil milhões de parâmetros concebido para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criado a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
ShieldGemma 2 | Idioma, visão | Modelo de peso aberto 4B treinado no ponto de verificação de TI de 4B do Gemma 3 para classificação de segurança de imagens em categorias importantes que recebe imagens e produz etiquetas de segurança por política. | Ficha do modelo |
TxGemma | Idioma | Modelos de peso aberto (2B, 9B e 27B) concebidos para o desenvolvimento terapêutico e criados com base no Gemma 2. | Ficha do modelo |
MedGemma | Idioma, visão | Modelos de peso aberto (4B e 27B) concebidos para o desempenho na compreensão de texto e imagens médicas. | Ficha do modelo |
MedSigLIP | Idioma, visão | Modelo de peso aberto (codificador de visão com 400 milhões de parâmetros e codificador de texto com 400 milhões de parâmetros) concebido para codificar imagens médicas e texto num espaço de incorporação comum. | Ficha do modelo |
T5Gemma | Idioma | Modelos de codificador-descodificador de ponderação aberta (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Ficha do modelo |
Vicuna v1.5 | Idioma | Implemente modelos da série Vicuna v1.5, que são modelos de base ajustados a partir do LLama2 para geração de texto. | Cartão do modelo |
NLLB | Idioma | Implemente modelos da série NLLB para tradução em vários idiomas. | Cartão do modelo Colab |
Mistral-7B | Idioma | Implemente o Mistral-7B, um modelo fundamental para a geração de texto. | Cartão do modelo |
BioGPT | Idioma | Implemente o BioGPT, um modelo generativo de texto para o domínio biomédico. | Cartão do modelo Colab |
BiomedCLIP | Idioma, visão | Implemente o BiomedCLIP, um modelo fundamental multimodal para o domínio biomédico. | Cartão do modelo Colab |
ImageBind | Idioma, visão Áudio |
Implemente o ImageBind, um modelo fundamental para a incorporação multimodal. | Cartão do modelo Colab |
DITO | Idioma, visão | Ajuste e implemente o DITO, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. | Cartão do modelo Colab |
OWL-ViT v2 | Idioma, visão | Implemente o OWL-ViT v2, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. | Cartão do modelo Colab |
FaceStylizer (Mediapipe) | Vision | Um pipeline generativo para transformar imagens de rostos humanos num novo estilo. | Cartão do modelo Colab |
Llama 2 | Idioma | Ajuste e implemente os modelos de base Llama 2 da Meta (7B, 13B e 70B) na Vertex AI. | Cartão do modelo |
Code Llama | Idioma | Implemente os modelos de fundação Code Llama da Meta (7B, 13B e 34B) na Vertex AI. | Cartão do modelo |
Falcon-instruct | Idioma | Ajuste e implemente modelos Falcon-instruct (7B e 40B) através da PEFT. | Colab Ficha do modelo |
OpenLLaMA | Idioma | Ajuste e implemente modelos OpenLLaMA (3B, 7B e 13B) através da PEFT. | Colab Ficha do modelo |
T5-FLAN | Idioma | Ajuste e implemente o T5-FLAN (base, small e large). | Cartão de modelo (pipeline de ajuste preciso incluída) |
BERT | Idioma | Ajuste e implemente o BERT usando a PEFT. | Colab Cartão de modelo |
BART-large-cnn | Idioma | Implemente o BART, um modelo de transformador codificador-codificador (seq2seq) com um codificador bidirecional (semelhante ao BERT) e um descodificador autorregressivo (semelhante ao GPT). | Colab Cartão de modelo |
RoBERTa-large | Idioma | Ajuste e implemente o RoBERTa-large usando a PEFT. | Colab Cartão de modelo |
XLM-RoBERTa-large | Idioma | Ajuste e implemente o XLM-RoBERTa-large (uma versão multilingue do RoBERTa) usando a PEFT. | Colab Cartão de modelo |
Stable Diffusion XL v1.0 | Idioma, visão | Implemente o Stable Diffusion XL v1.0, que suporta a geração de texto para imagem. | Colab Ficha do modelo |
Stable Diffusion XL Lightning | Idioma, visão | Implemente o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem. | Colab Ficha do modelo |
Stable Diffusion v2.1 | Idioma, visão | Ajuste e implemente o Stable Diffusion v2.1 (suporta a geração de texto em imagens) através do Dreambooth. | Colab Cartão de modelo |
Stable Diffusion 4x upscaler | Idioma, visão | Implemente o otimizador 4x do Stable Diffusion, que suporta a super-resolução de imagens condicionadas por texto. | Colab Cartão de modelo |
InstructPix2Pix | Idioma, visão | Implemente o InstructPix2Pix, que suporta a edição de imagens através de um comando de texto. | Colab Ficha do modelo |
Pintura do Stable Diffusion | Idioma, visão | Ajuste e implemente o Stable Diffusion Inpainting, que suporta o preenchimento de uma imagem com máscara através de um comando de texto. | Colab Ficha do modelo |
SAM | Idioma, visão | Implemente o Segment Anything, que suporta a segmentação de imagens sem exemplos. | Colab Ficha do modelo |
Pic2Word Composed Image Retrieval | Idioma, visão | Implemente o Pic2Word, que suporta a obtenção de imagens compostas multimoda. | Colab Ficha do modelo |
BLIP2 | Idioma, visão | Implementar o BLIP2, que suporta legendagem de imagens e respostas a perguntas visuais. | Colab Cartão de modelo |
OpenCLIP | Idioma, visão | Ajuste e implemente o Open-CLIP, que suporta a classificação zero-shot. | Colab Ficha do modelo |
F-VLM | Idioma, visão | Implemente o F-VLM, que suporta a deteção de objetos de imagem de vocabulário aberto. | Colab Ficha do modelo |
tfhub/EfficientNetV2 | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2. | Colab Cartão de modelo |
EfficientNetV2 (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2. | Colab Ficha do modelo |
Proprietário/EfficientNetV2 | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens EfficientNetV2. | Colab Ficha do modelo |
EfficientNetLite (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens EfficientNetLite através do MediaPipe Model Maker. | Colab Ficha do modelo |
tfvision/vit | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
ViT (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
Proprietário/ViT | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
Proprietário/MaxViT | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens híbrido (CNN + ViT) MaxViT. | Colab Cartão de modelo |
ViT (JAX) | Vision | Ajuste e implemente a implementação JAX do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
tfvision/SpineNet | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos SpineNet. | Colab Cartão de modelo |
Proprietário/Spinenet | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos SpineNet. | Colab Ficha do modelo |
tfvision/YOLO | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos de uma fase YOLO. | Colab Cartão de modelo |
Proprietário/YOLO | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos de uma fase YOLO. | Colab Cartão de modelo |
YOLOv8 (Keras) | Vision | Ajuste e implemente a implementação do Keras do modelo YOLOv8 para deteção de objetos. | Colab Ficha do modelo |
tfvision/YOLOv7 | Vision | Ajuste e implemente o modelo YOLOv7 para deteção de objetos. | Colab Ficha do modelo |
Acompanhamento de objetos de vídeo ByteTrack | Vision | Execute a previsão em lote para o acompanhamento de objetos de vídeo através do rastreador ByteTrack. | Colab Ficha do modelo |
ResNeSt (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ResNeSt. | Colab Cartão de modelo |
ConvNeXt (TIMM) | Vision | Ajuste e implemente o ConvNeXt, um modelo puramente convolucional para classificação de imagens inspirado no design dos Vision Transformers. | Colab Cartão de modelo |
CspNet (TIMM) | Vision | Ajuste e implemente o modelo de classificação de imagens CSPNet (Cross Stage Partial Network). | Colab Cartão de modelo |
Inception (TIMM) | Vision | Ajuste e implemente o modelo de classificação de imagens Inception. | Colab Cartão de modelo |
DeepLabv3+ (com ponto de verificação) | Vision | Ajuste e implemente o modelo DeepLab-v3 Plus para a segmentação semântica de imagens. | Colab Cartão de modelo |
Faster R-CNN (Detectron2) | Vision | Otimize e implemente a implementação do Detectron2 do modelo Faster R-CNN para a deteção de objetos em imagens. | Colab Cartão de modelo |
RetinaNet (Detectron2) | Vision | Ajuste e implemente a implementação do Detectron2 do modelo RetinaNet para a deteção de objetos em imagens. | Colab Cartão de modelo |
Mask R-CNN (Detectron2) | Vision | Ajuste e implemente a implementação do Detectron2 do modelo Mask R-CNN para a deteção e segmentação de objetos de imagem. | Colab Cartão de modelo |
ControlNet | Vision | Ajuste e implemente o modelo de geração de texto para imagem ControlNet. | Colab Cartão de modelo |
MobileNet (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens MobileNet. | Colab Cartão de modelo |
Classificação de imagens MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens MobileNetV2 com o MediaPipe Model Maker. | Colab Cartão de modelo |
Deteção de objetos MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de deteção de objetos MobileNetV2 através do MediaPipe Model Maker. | Colab Cartão de modelo |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajuste o modelo de deteção de objetos MobileNet-MultiHW-AVG usando o MediaPipe Model Maker. | Colab Cartão de modelo |
DeiT | Vision | Ajuste e implemente o modelo DeiT (Data-efficient Image Transformers) para a classificação de imagens. | Colab Cartão de modelo |
BEiT | Vision | Ajuste e implemente o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para a classificação de imagens. | Colab Cartão de modelo |
Reconhecimento de gestos com a mão (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos de reconhecimento de gestos com as mãos através do MediaPipe. | Colab Ficha do modelo |
Classificador de incorporação de palavras médio (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos de classificador de incorporação de palavras média através do MediaPipe. | Colab Ficha do modelo |
Classificador MobileBERT (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos do classificador MobileBERT através do MediaPipe. | Colab Ficha do modelo |
Classificação de clipes de vídeo com a MoViNet | Vídeo | Ajuste e implemente modelos de classificação de clipes de vídeo MoViNet. | Colab Ficha do modelo |
Reconhecimento de ações de vídeo MoViNet | Vídeo | Ajuste e implemente modelos MoViNet para a inferência de reconhecimento de ações. | Colab Ficha do modelo |
Stable Diffusion XL LCM | Vision | Implemente este modelo que usa o modelo de consistência latente (LCM) para melhorar a geração de texto em imagens nos modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade com menos passos. | Colab Ficha do modelo |
LLaVA 1.5 | Visão, idioma | Implemente modelos LLaVA 1.5. | Colab Ficha do modelo |
Pytorch-ZipNeRF | Visão, vídeo | Forme o modelo Pytorch-ZipNeRF, que é uma implementação de ponta do algoritmo ZipNeRF na framework Pytorch, concebida para uma reconstrução 3D eficiente e precisa a partir de imagens 2D. | Colab Ficha do modelo |
Mixtral | Idioma | Implemente o modelo Mixtral, que é um modelo de linguagem (conteúdo extenso) (MDL/CE) de mistura de especialistas (MoE) desenvolvido pela Mistral AI. | Cartão do modelo |
Llama 2 (quantizado) | Idioma | Ajuste e implemente uma versão quantizada dos modelos Llama 2 da Meta. | Colab Ficha do modelo |
LaMa (Large Mask Inpainting) | Vision | Implemente o LaMa, que usa convoluções rápidas de Fourier (FFCs), uma perda percetual de campo recetivo elevado e grandes máscaras de preparação, o que permite o preenchimento de imagens robusto em termos de resolução. | Colab Ficha do modelo |
AutoGluon | Tabular | Com o AutoGluon, pode preparar e implementar modelos de aprendizagem automática e aprendizagem profunda de alta precisão para dados tabulares. | Colab Ficha do modelo |
MaMMUT | Idioma, visão | Uma arquitetura de codificador de visão e descodificador de texto para tarefas multimodais, como resposta a perguntas visuais, obtenção de imagens e texto, obtenção de texto e imagens, e geração de incorporações multimodais. | Colab Ficha do modelo |
Whisper Large | Voz | Implemente o Whisper Large, o modelo de vanguarda da OpenAI para o reconhecimento de voz automático (ASR). | Colab Ficha do modelo |