Modelos admitidos por Model Garden

Lista de modelos propios de Google

En la siguiente tabla se enumeran los modelos propios de Google que están disponibles en Model Garden:

Nombre del modelo Modalidad Descripción Guías de inicio rápido
Gemini 2.5 Flash (versión preliminar) Idioma, audio y visión Modelo de pensamiento diseñado para equilibrar el precio y el rendimiento. Tarjeta de modelo
Gemini 2.5 Pro (versión preliminar) Idioma, audio y visión Modelo de pensamiento con funciones de nueva generación y capacidades mejoradas. Tarjeta de modelo
Gemini 2.0 Flash Idioma, audio y visión Es el modelo de referencia para todas las tareas diarias y ofrece un rendimiento mejorado. Además, es compatible con la API Live en tiempo real. Tarjeta de modelo
Gemini 2.0 Flash-Lite Idioma, audio y visión El modelo Flash más rápido y rentable. Ofrece una calidad superior a la de 1.5 al mismo precio y velocidad. Tarjeta de modelo
Imagen para la generación de imágenes Vision Crea imágenes de calidad profesional a gran escala usando peticiones de texto. También puedes usar este modelo para aumentar la resolución de las imágenes. Tarjeta de modelo
Imagen para editar y personalizar Vision Edita o usa el aprendizaje con pocos ejemplos para crear imágenes de calidad profesional a gran escala usando imágenes base y peticiones de texto, o imágenes de referencia y peticiones de texto. Tarjeta de modelo
Segmentación de imágenes de Vertex (vista previa) Vision Usa peticiones de texto o dibuja garabatos para segmentar una imagen. La segmentación de imágenes te permite, por ejemplo, detectar objetos, quitar el fondo de una imagen o segmentar el primer plano de una imagen. Tarjeta de modelo
Imagen para subtitulado y VQA Idioma Genera una descripción pertinente para una imagen determinada. Tarjeta de modelo
Embeddings de texto Idioma Genera vectores basados en texto, que se pueden usar en tareas posteriores, como la búsqueda semántica, la clasificación de texto y el análisis de sentimiento. Tarjeta de modelo
Incrustaciones para multimodal Vision Genera vectores basados en imágenes, que se pueden usar para tareas posteriores, como la clasificación y la búsqueda de imágenes. Tarjeta de modelo
Chirp 2 Voz Chirp 2 es un modelo de reconocimiento de voz automático (ASR) multilingüe desarrollado por Google que transcribe la voz (voz a texto). En comparación con la primera generación de modelos de Chirp, Chirp 2 ofrece mayor precisión y velocidad, así como nuevas funciones, como marcas de tiempo a nivel de palabra, adaptación de modelos y traducción de voz. Tarjeta de modelo

Lista de modelos gestionados disponibles en Model Garden

Los modelos se ofrecen como APIs gestionadas en Model Garden de Vertex AI (también conocido como modelo como servicio).

Modelos de partners disponibles en Model Garden

En la siguiente tabla se enumeran los modelos de partners disponibles en Model Garden:

Nombre del modelo Modalidad Descripción Guía de inicio rápido
Claude Opus 4.1 Idioma, visión Líder del sector en programación. Ofrece un rendimiento constante en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar los productos y las funciones de los agentes de vanguardia. Tarjeta de modelo
Claude Opus 4 Idioma, visión Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA. Tarjeta de modelo
Claude Sonnet 4 Idioma, visión Modelo de tamaño medio de Anthropic con una inteligencia superior para usos de gran volumen, como la programación, la investigación exhaustiva y los agentes. Tarjeta de modelo
Claude 3.7 Sonnet de Anthropic Idioma, visión Modelo líder del sector para programar y potenciar agentes de IA, y el primer modelo de Claude que ofrece un tiempo de reflexión ampliado. Tarjeta de modelo
Claude 3.5 Sonnet v2 de Anthropic Idioma, visión La versión mejorada de Claude 3.5 Sonnet es un modelo de vanguardia para tareas de ingeniería de software del mundo real y funciones de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. Tarjeta de modelo
Claude 3.5 Haiku de Anthropic Idioma, visión Claude 3.5 Haiku, la nueva generación del modelo más rápido y rentable de Anthropic, es ideal para casos prácticos en los que la velocidad y la asequibilidad son importantes. Tarjeta de modelo
Claude 3 Haiku de Anthropic Idioma El modelo de visión y texto más rápido de Anthropic para responder casi instantáneamente a consultas básicas, con el objetivo de ofrecer experiencias de IA fluidas que imiten las interacciones humanas. Tarjeta de modelo
Claude 3.5 Sonnet de Anthropic Idioma Claude 3.5 Sonnet supera a Claude 3 Opus de Anthropic en una amplia gama de evaluaciones de Anthropic y con la velocidad y el coste del modelo de gama media de Anthropic, Claude 3 Sonnet. Tarjeta de modelo
Jamba 1.5 Large (versión preliminar) Idioma Jamba 1.5 Large de AI21 Labs se ha diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase. Tarjeta de modelo
Jamba 1.5 Mini (versión preliminar) Idioma Jamba 1.5 Mini de AI21 Labs ofrece un buen equilibrio entre calidad, rendimiento y bajo coste. Tarjeta de modelo
Mistral OCR (25.05) Idioma, visión Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para comprender documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. Tarjeta de modelo
Mistral Small 3.1 (25.03) Idioma Mistral Small 3.1 (25.03) es la versión más reciente del modelo Small de Mistral, que incluye funciones multimodales y una longitud de contexto ampliada. Tarjeta de modelo
Mistral Large (24.11) Idioma Mistral Large (24.11) es la siguiente versión del modelo Mistral Large (24.07), que ahora ofrece mejores funciones de razonamiento y de llamada de funciones. Tarjeta de modelo
Codestral (25.01) Código Un modelo de vanguardia diseñado para la generación de código, incluida la función de rellenar huecos y la finalización de código. Tarjeta de modelo

Modelos abiertos disponibles en Model Garden

En la siguiente tabla se enumeran los modelos abiertos disponibles en Model Garden:

Nombre del modelo Modalidad Descripción Guía de inicio rápido
gpt-oss 120B Idioma Un modelo de 120.000 millones de parámetros que ofrece un alto rendimiento en tareas de razonamiento. Tarjeta de modelo
gpt-oss 20B Idioma Un modelo de 20.000 millones de parámetros optimizado para ofrecer eficiencia y desplegarse en hardware de consumo y periférico. Tarjeta de modelo
Qwen3 Coder Idioma, código Un modelo de peso abierto desarrollado para tareas avanzadas de desarrollo de software. Tarjeta de modelo
Qwen3 235B Idioma Un modelo de peso abierto con una capacidad de "pensamiento híbrido" para alternar entre el razonamiento metódico y la conversación rápida. Tarjeta de modelo
DeepSeek-V3.1 Idioma El modelo híbrido de DeepSeek, que admite tanto el modo de reflexión como el modo sin reflexión. Tarjeta de modelo
DeepSeek R1 (0528) Idioma La versión más reciente del modelo DeepSeek R1 de DeepSeek. Tarjeta de modelo
Llama 4 Maverick 17B-128E Idioma, visión El modelo de Llama 4 más grande y potente, que ofrece funciones de programación, razonamiento e imagen. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana. Tarjeta de modelo
Llama 4 Scout 17B-16E Idioma, visión Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana. Tarjeta de modelo
Llama 3.3 Idioma Llama 3.3 es un modelo de 70.000 millones de parámetros de solo texto ajustado mediante instrucciones que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto. Además, en algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. Tarjeta de modelo
Llama 3.2 (vista previa) Idioma, visión Un modelo multimodal de tamaño medio con 90.000 millones de parámetros que puede interpretar imágenes, como analizar gráficos y generar descripciones de imágenes. Tarjeta de modelo
Llama 3.1 Idioma

Una colección de LLMs multilingües optimizados para casos prácticos de diálogo multilingüe, que superan a muchos de los modelos de chat de código abierto y cerrados disponibles en las métricas comunes del sector.

Llama 3.1 405B está disponible para el público general.

Llama 3.1 8B y Llama 3.1 70B están en versión preliminar.

Tarjeta de modelo

Lista de modelos con recetas de ajuste o de servicio de código abierto en Model Garden

En la siguiente tabla se indican los modelos de software libre que admiten recetas de ajuste o de servicio de código abierto en Model Garden:

Nombre del modelo Modalidad Descripción Guía de inicio rápido
Llama 4 Idioma, visión Una familia de modelos multimodales que usan la arquitectura Mixture-of-Experts (MoE) y la fusión temprana. Colab
Tarjeta de modelo
Llama 3.3 Idioma El modelo de lenguaje extenso (LLM) multilingüe Llama 3.3 de Meta es un modelo generativo preentrenado y ajustado mediante instrucciones de 70.000 millones de parámetros (texto de entrada y texto de salida). Tarjeta de modelo
Flux Vision Un modelo Transformer de flujo rectificado de 12.000 millones de parámetros que genera imágenes de alta calidad a partir de descripciones de texto. Tarjeta de modelo
Prompt Guard Idioma Protege las entradas de LLM frente a técnicas de jailbreaking e inyecciones indirectas. Tarjeta de modelo
Llama 3.2 Idioma Una colección de modelos de lenguaje extensos multilingües que son modelos generativos preentrenados y ajustados mediante instrucciones de 1000 y 3000 millones de parámetros. Tarjeta de modelo
Llama 3.2 Vision Idioma, visión Una colección de modelos de lenguaje extensos multimodales que son modelos generativos de razonamiento de imágenes preentrenados y ajustados mediante instrucciones de 11 y 90 mil millones de parámetros. Estos modelos están optimizados para el reconocimiento visual, el razonamiento de imágenes, la generación de subtítulos y la respuesta a preguntas generales sobre una imagen. Tarjeta de modelo
Llama Guard 3 Idioma Un modelo preentrenado de Llama-3.1-8B que se ha ajustado para la clasificación de seguridad del contenido. Tarjeta de modelo
Qwen2 Idioma Implementa Qwen2, una serie de modelos de lenguaje extensos básicos. Colab
Tarjeta de modelo
Phi-3 Idioma Implementa Phi-3, una serie de modelos de lenguaje extensos de base. Colab
Tarjeta de modelo
E5 Idioma Despliega E5, una serie de modelos de inserciones de texto. Colab
Tarjeta de modelo
Instant ID Idioma, visión Implementa Instant ID, un modelo de generación de texto a imagen que protege la identidad. Colab
Tarjeta de modelo
Llama 3 Idioma Descubre y crea con los modelos Llama 3 (8B, 70B y 405B) de Meta en Vertex AI. Tarjeta de modelo
Gemma 3n Idioma, visión y audio Modelos de peso abierto (E2B y E4B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
Gemma 3 Idioma, visión Modelos de peso abierto (1B solo de texto, 4B, 12B y 27B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
Gemma 2 Idioma Modelos de peso abierto (9B y 27B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
Gemma Idioma Modelos de peso abierto (2B y 7B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
CodeGemma Idioma Modelos de peso abierto (2B y 7B) diseñados para la generación y la finalización de código, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
PaliGemma 2 Idioma, visión Modelos abiertos de 3B, 10B y 28B diseñados para tareas de subtitulado de imágenes y de preguntas y respuestas visuales, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
PaliGemma Idioma, visión Modelo abierto de 3000 millones de parámetros diseñado para tareas de descripción de imágenes y de preguntas y respuestas visuales. Se ha creado a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
ShieldGemma 2 Idioma, visión Modelo de 4000 millones de parámetros con pesos abiertos entrenado con el checkpoint de 4000 millones de parámetros de TI de Gemma 3 para la clasificación de la seguridad de las imágenes en categorías clave. Este modelo recibe imágenes y genera etiquetas de seguridad según la política. Tarjeta de modelo
TxGemma Idioma Modelos de peso abierto (2B, 9B y 27B) diseñados para el desarrollo terapéutico y basados en Gemma 2. Tarjeta de modelo
MedGemma Idioma, visión Modelos de peso abierto (4000 y 27.000 millones de parámetros) diseñados para ofrecer un buen rendimiento en la comprensión de textos e imágenes médicos. Tarjeta de modelo
MedSigLIP Idioma, visión Modelo de peso abierto (codificador de visión con 400 M de parámetros y codificador de texto con 400 M de parámetros) diseñado para codificar imágenes y texto médicos en un espacio de inserción común. Tarjeta de modelo
T5Gemma Idioma Modelos codificador-decodificador de peso abierto (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L y XL-XL) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. Tarjeta de modelo
Vicuna v1.5 Idioma Implementa modelos de la serie Vicuna v1.5, que son modelos fundacionales ajustados a partir de LLama2 para la generación de texto. Tarjeta de modelo
NLLB Idioma Despliega modelos de la serie NLLB para traducir contenido a varios idiomas. Tarjeta de modelo
Colab
Mistral-7B Idioma Despliega Mistral-7B, un modelo básico para la generación de texto. Tarjeta de modelo
BioGPT Idioma Despliega BioGPT, un modelo generativo de texto para el ámbito biomédico. Tarjeta de modelo
Colab
BiomedCLIP Idioma, visión Despliega BiomedCLIP, un modelo de base multimodal para el ámbito biomédico. Tarjeta de modelo
Colab
ImageBind Idioma, visión y
audio
Despliega ImageBind, un modelo fundacional para la incrustación multimodal. Tarjeta de modelo
Colab
DITO Idioma, visión Ajusta y despliega DITO, un modelo básico multimodal para tareas de detección de objetos de vocabulario abierto. Tarjeta de modelo
Colab
OWL-ViT v2 Idioma, visión Despliega OWL-ViT v2, un modelo de base multimodal para tareas de detección de objetos de vocabulario abierto. Tarjeta de modelo
Colab
FaceStylizer (MediaPipe) Vision Un flujo de trabajo generativo para transformar imágenes de rostros humanos en un nuevo estilo. Tarjeta de modelo
Colab
Llama 2 Idioma Ajusta y despliega los modelos fundacionales Llama 2 de Meta (7B, 13B y 70B) en Vertex AI. Tarjeta de modelo
Code Llama Idioma Despliega los modelos fundacionales Code Llama de Meta (7B, 13B y 34B) en Vertex AI. Tarjeta de modelo
Falcon-instruct Idioma Ajusta y despliega modelos de Falcon-instruct (7B y 40B) mediante PEFT. Colab
Tarjeta de modelo
OpenLLaMA Idioma Ajusta y despliega modelos de OpenLLaMA (3B, 7B y 13B) mediante PEFT. Colab
Tarjeta de modelo
T5-FLAN Idioma Ajusta y despliega T5-FLAN (base, small y large). Tarjeta de modelo (se incluye la canalización de ajuste fino)
BERT Idioma Ajusta y despliega BERT con PEFT. Colab
Tarjeta de modelo
BART-large-cnn Idioma Despliega BART, un modelo de codificador-codificador (seq2seq) de transformador con un codificador bidireccional (similar a BERT) y un decodificador autorregresivo (similar a GPT). Colab
Tarjeta de modelo
RoBERTa-large Idioma Ajusta y despliega RoBERTa-large con PEFT. Colab
Tarjeta de modelo
XLM-RoBERTa-large Idioma Ajusta y despliega XLM-RoBERTa-large (una versión multilingüe de RoBERTa) mediante PEFT. Colab
Tarjeta de modelo
Stable Diffusion XL v1.0 Idioma, visión Implementa Stable Diffusion XL v1.0, que admite la generación de imágenes a partir de texto. Colab
Tarjeta de modelo
Stable Diffusion XL Lightning Idioma, visión Despliega Stable Diffusion XL Lightning, un modelo de generación de imágenes a partir de texto. Colab
Tarjeta de modelo
Stable Diffusion v2.1 Idioma, visión Ajusta y despliega Stable Diffusion v2.1 (admite la generación de texto a imagen) con Dreambooth. Colab
Tarjeta de modelo
Stable Diffusion 4x upscaler Idioma, visión Implementa el escalador 4x de Stable Diffusion, que admite la superresolución de imágenes condicionada por texto. Colab
Tarjeta de modelo
InstructPix2Pix Idioma, visión Implementa InstructPix2Pix, que permite editar imágenes mediante una petición de texto. Colab
Tarjeta de modelo
Pintura en la imagen de Stable Diffusion Idioma, visión Ajusta y despliega Stable Diffusion Inpainting, que permite pintar una imagen enmascarada mediante una petición de texto. Colab
Tarjeta de modelo
SAM Idioma, visión Implementa Segment Anything, que admite la segmentación de imágenes sin ejemplos. Colab
Tarjeta de modelo
Extracción de imágenes compuestas de Pic2Word Idioma, visión Implementa Pic2Word, que admite la recuperación de imágenes compuestas multimodales. Colab
Tarjeta de modelo
BLIP2 Idioma, visión Implementa BLIP2, que admite la generación de subtítulos de imágenes y la respuesta a preguntas visuales. Colab
Tarjeta de modelo
Open-CLIP Idioma, visión Ajusta y despliega Open-CLIP, que admite la clasificación sin ejemplos. Colab
Tarjeta de modelo
F-VLM Idioma, visión Implementa F-VLM, que admite la detección de objetos de imagen con vocabulario abierto. Colab
Tarjeta de modelo
tfhub/EfficientNetV2 Vision Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes EfficientNetV2. Colab
Tarjeta de modelo
EfficientNetV2 (TIMM) Vision Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes EfficientNetV2. Colab
Tarjeta de modelo
Propietario/EfficientNetV2 Vision Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes EfficientNetV2. Colab
Tarjeta de modelo
EfficientNetLite (MediaPipe) Vision Ajusta un modelo de clasificación de imágenes de EfficientNetLite mediante MediaPipe Model Maker. Colab
Tarjeta de modelo
tfvision/vit Vision Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes ViT. Colab
Tarjeta de modelo
ViT (TIMM) Vision Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ViT. Colab
Tarjeta de modelo
Propiedad/ViT Vision Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes ViT. Colab
Tarjeta de modelo
Propietario/MaxViT Vision Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes híbrido MaxViT (CNN + ViT). Colab
Tarjeta de modelo
ViT (JAX) Vision Ajusta y despliega la implementación de JAX del modelo de clasificación de imágenes ViT. Colab
Tarjeta de modelo
tfvision/SpineNet Vision Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos SpineNet. Colab
Tarjeta de modelo
Propietario/Spinenet Vision Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos SpineNet. Colab
Tarjeta de modelo
tfvision/YOLO Vision Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos de una fase YOLO. Colab
Tarjeta de modelo
Propiedad/YOLO Vision Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos de una fase de YOLO. Colab
Tarjeta de modelo
YOLOv8 (Keras) Vision Ajusta y despliega la implementación de Keras del modelo YOLOv8 para la detección de objetos. Colab
Tarjeta de modelo
tfvision/YOLOv7 Vision Ajusta y despliega el modelo YOLOv7 para la detección de objetos. Colab
Tarjeta de modelo
Seguimiento de objetos de vídeo de ByteTrack Vision Ejecuta la predicción por lotes para monitorizar objetos de vídeo mediante el rastreador ByteTrack. Colab
Tarjeta de modelo
ResNeSt (TIMM) Vision Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ResNeSt. Colab
Tarjeta de modelo
ConvNeXt (TIMM) Vision Ajusta y despliega ConvNeXt, un modelo convolucional puro para la clasificación de imágenes inspirado en el diseño de Vision Transformers. Colab
Tarjeta de modelo
CspNet (TIMM) Vision Ajusta y despliega el modelo de clasificación de imágenes CSPNet (Cross Stage Partial Network). Colab
Tarjeta de modelo
Inception (TIMM) Vision Ajusta y despliega el modelo de clasificación de imágenes Inception. Colab
Tarjeta de modelo
DeepLabv3+ (con punto de control) Vision Ajusta y despliega el modelo DeepLab-v3 Plus para la segmentación semántica de imágenes. Colab
Tarjeta de modelo
Faster R-CNN (Detectron2) Vision Ajusta y despliega la implementación de Detectron2 del modelo Faster R-CNN para la detección de objetos de imagen. Colab
Tarjeta de modelo
RetinaNet (Detectron2) Vision Ajusta y despliega la implementación de Detectron2 del modelo RetinaNet para la detección de objetos de imagen. Colab
Tarjeta de modelo
Mask R-CNN (Detectron2) Vision Ajusta y despliega la implementación de Detectron2 del modelo Mask R-CNN para la detección y segmentación de objetos de imagen. Colab
Tarjeta de modelo
ControlNet Vision Ajusta y despliega el modelo de generación de texto a imagen ControlNet. Colab
Tarjeta de modelo
MobileNet (TIMM) Vision Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes MobileNet. Colab
Tarjeta de modelo
Clasificación de imágenes de MobileNetV2 (MediaPipe) Vision Ajusta el modelo de clasificación de imágenes MobileNetV2 mediante MediaPipe Model Maker. Colab
Tarjeta de modelo
Detección de objetos de MobileNetV2 (MediaPipe) Vision Ajusta el modelo de detección de objetos MobileNetV2 con Model Maker de MediaPipe. Colab
Tarjeta de modelo
MobileNet-MultiHW-AVG (MediaPipe) Vision Ajusta el modelo de detección de objetos MobileNet-MultiHW-AVG con Model Maker de MediaPipe. Colab
Tarjeta de modelo
DeiT Vision Ajusta y despliega el modelo DeiT (Data-efficient Image Transformers) para clasificar imágenes. Colab
Tarjeta de modelo
BEiT Vision Ajusta y despliega el modelo BEiT (Bidirectional Encoder representation from Image Transformers) para clasificar imágenes. Colab
Tarjeta de modelo
Reconocimiento de gestos con la mano (MediaPipe) Vision Ajusta y despliega en el dispositivo los modelos de reconocimiento de gestos con la mano mediante MediaPipe. Colab
Tarjeta de modelo
Clasificador de media de incrustaciones de palabras (MediaPipe) Vision Ajusta y despliega en el dispositivo los modelos de clasificador de incrustaciones de palabras medias con MediaPipe. Colab
Tarjeta de modelo
Clasificador MobileBERT (MediaPipe) Vision Ajusta y despliega en el dispositivo los modelos de clasificador MobileBERT con MediaPipe. Colab
Tarjeta de modelo
Clasificación de clips de vídeo de MoViNet Vídeo Ajusta y despliega modelos de clasificación de clips de vídeo de MoViNet. Colab
Tarjeta de modelo
Reconocimiento de acciones en vídeos de MoViNet Vídeo Ajusta y despliega modelos de MoViNet para la inferencia de reconocimiento de acciones. Colab
Tarjeta de modelo
Stable Diffusion XL LCM Vision Implementa este modelo, que usa el modelo de coherencia latente (LCM), para mejorar la generación de texto a imagen en los modelos de difusión latente. Para ello, permite crear imágenes de alta calidad más rápido y con menos pasos. Colab
Tarjeta de modelo
LLaVA 1.5 Visión e idioma Despliega modelos de LLaVA 1.5. Colab
Tarjeta de modelo
Pytorch-ZipNeRF Visión y vídeo Entrena el modelo Pytorch-ZipNeRF, que es una implementación de última generación del algoritmo ZipNeRF en el framework Pytorch, diseñado para una reconstrucción 3D eficiente y precisa a partir de imágenes 2D. Colab
Tarjeta de modelo
Mixtral Idioma Despliega el modelo Mixtral, que es un modelo de lenguaje extenso (LLM) de mezcla de expertos (MoE) desarrollado por Mistral AI. Tarjeta de modelo
Llama 2 (cuantificado) Idioma Ajusta y despliega una versión cuantificada de los modelos Llama 2 de Meta. Colab
Tarjeta de modelo
LaMa (Large Mask Inpainting) Vision Implementa LaMa, que usa convoluciones rápidas de Fourier (FFCs), una pérdida perceptual de campo receptivo alto y máscaras de entrenamiento grandes, lo que permite pintar imágenes con una resolución robusta. Colab
Tarjeta de modelo
AutoGluon Tabular Con AutoGluon, puedes entrenar y desplegar modelos de aprendizaje automático y aprendizaje profundo de alta precisión para datos tabulares. Colab
Tarjeta de modelo
MaMMUT Idioma, visión Una arquitectura de codificador de visión y decodificador de texto para tareas multimodales, como la búsqueda de respuestas visuales, la recuperación de imágenes y texto, la recuperación de texto e imágenes, y la generación de embeddings multimodales. Colab
Tarjeta de modelo
Susurro (grande) Voz Implementa Whisper Large, el modelo de vanguardia de OpenAI para el reconocimiento de voz automático (ASR). Colab
Tarjeta de modelo