Lista de modelos propios de Google
En la siguiente tabla se enumeran los modelos propios de Google que están disponibles en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guías de inicio rápido |
---|---|---|---|
Gemini 2.5 Flash (versión preliminar) | Idioma, audio y visión | Modelo de pensamiento diseñado para equilibrar el precio y el rendimiento. | Tarjeta de modelo |
Gemini 2.5 Pro (versión preliminar) | Idioma, audio y visión | Modelo de pensamiento con funciones de nueva generación y capacidades mejoradas. | Tarjeta de modelo |
Gemini 2.0 Flash | Idioma, audio y visión | Es el modelo de referencia para todas las tareas diarias y ofrece un rendimiento mejorado. Además, es compatible con la API Live en tiempo real. | Tarjeta de modelo |
Gemini 2.0 Flash-Lite | Idioma, audio y visión | El modelo Flash más rápido y rentable. Ofrece una calidad superior a la de 1.5 al mismo precio y velocidad. | Tarjeta de modelo |
Imagen para la generación de imágenes | Vision | Crea imágenes de calidad profesional a gran escala usando peticiones de texto. También puedes usar este modelo para aumentar la resolución de las imágenes. | Tarjeta de modelo |
Imagen para editar y personalizar | Vision | Edita o usa el aprendizaje con pocos ejemplos para crear imágenes de calidad profesional a gran escala usando imágenes base y peticiones de texto, o imágenes de referencia y peticiones de texto. | Tarjeta de modelo |
Segmentación de imágenes de Vertex (vista previa) | Vision | Usa peticiones de texto o dibuja garabatos para segmentar una imagen. La segmentación de imágenes te permite, por ejemplo, detectar objetos, quitar el fondo de una imagen o segmentar el primer plano de una imagen. | Tarjeta de modelo |
Imagen para subtitulado y VQA | Idioma | Genera una descripción pertinente para una imagen determinada. | Tarjeta de modelo |
Embeddings de texto | Idioma | Genera vectores basados en texto, que se pueden usar en tareas posteriores, como la búsqueda semántica, la clasificación de texto y el análisis de sentimiento. | Tarjeta de modelo |
Incrustaciones para multimodal | Vision | Genera vectores basados en imágenes, que se pueden usar para tareas posteriores, como la clasificación y la búsqueda de imágenes. | Tarjeta de modelo |
Chirp 2 | Voz | Chirp 2 es un modelo de reconocimiento de voz automático (ASR) multilingüe desarrollado por Google que transcribe la voz (voz a texto). En comparación con la primera generación de modelos de Chirp, Chirp 2 ofrece mayor precisión y velocidad, así como nuevas funciones, como marcas de tiempo a nivel de palabra, adaptación de modelos y traducción de voz. | Tarjeta de modelo |
Lista de modelos gestionados disponibles en Model Garden
Los modelos se ofrecen como APIs gestionadas en Model Garden de Vertex AI (también conocido como modelo como servicio).
Modelos de partners disponibles en Model Garden
En la siguiente tabla se enumeran los modelos de partners disponibles en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
Claude Opus 4.1 | Idioma, visión | Líder del sector en programación. Ofrece un rendimiento constante en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar los productos y las funciones de los agentes de vanguardia. | Tarjeta de modelo |
Claude Opus 4 | Idioma, visión | Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA. | Tarjeta de modelo |
Claude Sonnet 4 | Idioma, visión | Modelo de tamaño medio de Anthropic con una inteligencia superior para usos de gran volumen, como la programación, la investigación exhaustiva y los agentes. | Tarjeta de modelo |
Claude 3.7 Sonnet de Anthropic | Idioma, visión | Modelo líder del sector para programar y potenciar agentes de IA, y el primer modelo de Claude que ofrece un tiempo de reflexión ampliado. | Tarjeta de modelo |
Claude 3.5 Sonnet v2 de Anthropic | Idioma, visión | La versión mejorada de Claude 3.5 Sonnet es un modelo de vanguardia para tareas de ingeniería de software del mundo real y funciones de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. | Tarjeta de modelo |
Claude 3.5 Haiku de Anthropic | Idioma, visión | Claude 3.5 Haiku, la nueva generación del modelo más rápido y rentable de Anthropic, es ideal para casos prácticos en los que la velocidad y la asequibilidad son importantes. | Tarjeta de modelo |
Claude 3 Haiku de Anthropic | Idioma | El modelo de visión y texto más rápido de Anthropic para responder casi instantáneamente a consultas básicas, con el objetivo de ofrecer experiencias de IA fluidas que imiten las interacciones humanas. | Tarjeta de modelo |
Claude 3.5 Sonnet de Anthropic | Idioma | Claude 3.5 Sonnet supera a Claude 3 Opus de Anthropic en una amplia gama de evaluaciones de Anthropic y con la velocidad y el coste del modelo de gama media de Anthropic, Claude 3 Sonnet. | Tarjeta de modelo |
Jamba 1.5 Large (versión preliminar) | Idioma | Jamba 1.5 Large de AI21 Labs se ha diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase. | Tarjeta de modelo |
Jamba 1.5 Mini (versión preliminar) | Idioma | Jamba 1.5 Mini de AI21 Labs ofrece un buen equilibrio entre calidad, rendimiento y bajo coste. | Tarjeta de modelo |
Mistral OCR (25.05) | Idioma, visión | Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para comprender documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. | Tarjeta de modelo |
Mistral Small 3.1 (25.03) | Idioma | Mistral Small 3.1 (25.03) es la versión más reciente del modelo Small de Mistral, que incluye funciones multimodales y una longitud de contexto ampliada. | Tarjeta de modelo |
Mistral Large (24.11) | Idioma | Mistral Large (24.11) es la siguiente versión del modelo Mistral Large (24.07), que ahora ofrece mejores funciones de razonamiento y de llamada de funciones. | Tarjeta de modelo |
Codestral (25.01) | Código | Un modelo de vanguardia diseñado para la generación de código, incluida la función de rellenar huecos y la finalización de código. | Tarjeta de modelo |
Modelos abiertos disponibles en Model Garden
En la siguiente tabla se enumeran los modelos abiertos disponibles en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
gpt-oss 120B | Idioma | Un modelo de 120.000 millones de parámetros que ofrece un alto rendimiento en tareas de razonamiento. | Tarjeta de modelo |
gpt-oss 20B | Idioma | Un modelo de 20.000 millones de parámetros optimizado para ofrecer eficiencia y desplegarse en hardware de consumo y periférico. | Tarjeta de modelo |
Qwen3 Coder | Idioma, código | Un modelo de peso abierto desarrollado para tareas avanzadas de desarrollo de software. | Tarjeta de modelo |
Qwen3 235B | Idioma | Un modelo de peso abierto con una capacidad de "pensamiento híbrido" para alternar entre el razonamiento metódico y la conversación rápida. | Tarjeta de modelo |
DeepSeek-V3.1 | Idioma | El modelo híbrido de DeepSeek, que admite tanto el modo de reflexión como el modo sin reflexión. | Tarjeta de modelo |
DeepSeek R1 (0528) | Idioma | La versión más reciente del modelo DeepSeek R1 de DeepSeek. | Tarjeta de modelo |
Llama 4 Maverick 17B-128E | Idioma, visión | El modelo de Llama 4 más grande y potente, que ofrece funciones de programación, razonamiento e imagen. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana. | Tarjeta de modelo |
Llama 4 Scout 17B-16E | Idioma, visión | Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de Mixture-of-Experts (MoE) y la fusión temprana. | Tarjeta de modelo |
Llama 3.3 | Idioma | Llama 3.3 es un modelo de 70.000 millones de parámetros de solo texto ajustado mediante instrucciones que ofrece un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa en aplicaciones de solo texto. Además, en algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. | Tarjeta de modelo |
Llama 3.2 (vista previa) | Idioma, visión | Un modelo multimodal de tamaño medio con 90.000 millones de parámetros que puede interpretar imágenes, como analizar gráficos y generar descripciones de imágenes. | Tarjeta de modelo |
Llama 3.1 | Idioma |
Una colección de LLMs multilingües optimizados para casos prácticos de diálogo multilingüe, que superan a muchos de los modelos de chat de código abierto y cerrados disponibles en las métricas comunes del sector. Llama 3.1 405B está disponible para el público general. Llama 3.1 8B y Llama 3.1 70B están en versión preliminar. |
Tarjeta de modelo |
Lista de modelos con recetas de ajuste o de servicio de código abierto en Model Garden
En la siguiente tabla se indican los modelos de software libre que admiten recetas de ajuste o de servicio de código abierto en Model Garden:
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
Llama 4 | Idioma, visión | Una familia de modelos multimodales que usan la arquitectura Mixture-of-Experts (MoE) y la fusión temprana. | Colab Tarjeta de modelo |
Llama 3.3 | Idioma | El modelo de lenguaje extenso (LLM) multilingüe Llama 3.3 de Meta es un modelo generativo preentrenado y ajustado mediante instrucciones de 70.000 millones de parámetros (texto de entrada y texto de salida). | Tarjeta de modelo |
Flux | Vision | Un modelo Transformer de flujo rectificado de 12.000 millones de parámetros que genera imágenes de alta calidad a partir de descripciones de texto. | Tarjeta de modelo |
Prompt Guard | Idioma | Protege las entradas de LLM frente a técnicas de jailbreaking e inyecciones indirectas. | Tarjeta de modelo |
Llama 3.2 | Idioma | Una colección de modelos de lenguaje extensos multilingües que son modelos generativos preentrenados y ajustados mediante instrucciones de 1000 y 3000 millones de parámetros. | Tarjeta de modelo |
Llama 3.2 Vision | Idioma, visión | Una colección de modelos de lenguaje extensos multimodales que son modelos generativos de razonamiento de imágenes preentrenados y ajustados mediante instrucciones de 11 y 90 mil millones de parámetros. Estos modelos están optimizados para el reconocimiento visual, el razonamiento de imágenes, la generación de subtítulos y la respuesta a preguntas generales sobre una imagen. | Tarjeta de modelo |
Llama Guard 3 | Idioma | Un modelo preentrenado de Llama-3.1-8B que se ha ajustado para la clasificación de seguridad del contenido. | Tarjeta de modelo |
Qwen2 | Idioma | Implementa Qwen2, una serie de modelos de lenguaje extensos básicos. | Colab Tarjeta de modelo |
Phi-3 | Idioma | Implementa Phi-3, una serie de modelos de lenguaje extensos de base. | Colab Tarjeta de modelo |
E5 | Idioma | Despliega E5, una serie de modelos de inserciones de texto. | Colab Tarjeta de modelo |
Instant ID | Idioma, visión | Implementa Instant ID, un modelo de generación de texto a imagen que protege la identidad. | Colab Tarjeta de modelo |
Llama 3 | Idioma | Descubre y crea con los modelos Llama 3 (8B, 70B y 405B) de Meta en Vertex AI. | Tarjeta de modelo |
Gemma 3n | Idioma, visión y audio | Modelos de peso abierto (E2B y E4B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Gemma 3 | Idioma, visión | Modelos de peso abierto (1B solo de texto, 4B, 12B y 27B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Gemma 2 | Idioma | Modelos de peso abierto (9B y 27B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Gemma | Idioma | Modelos de peso abierto (2B y 7B) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
CodeGemma | Idioma | Modelos de peso abierto (2B y 7B) diseñados para la generación y la finalización de código, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
PaliGemma 2 | Idioma, visión | Modelos abiertos de 3B, 10B y 28B diseñados para tareas de subtitulado de imágenes y de preguntas y respuestas visuales, creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
PaliGemma | Idioma, visión | Modelo abierto de 3000 millones de parámetros diseñado para tareas de descripción de imágenes y de preguntas y respuestas visuales. Se ha creado a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
ShieldGemma 2 | Idioma, visión | Modelo de 4000 millones de parámetros con pesos abiertos entrenado con el checkpoint de 4000 millones de parámetros de TI de Gemma 3 para la clasificación de la seguridad de las imágenes en categorías clave. Este modelo recibe imágenes y genera etiquetas de seguridad según la política. | Tarjeta de modelo |
TxGemma | Idioma | Modelos de peso abierto (2B, 9B y 27B) diseñados para el desarrollo terapéutico y basados en Gemma 2. | Tarjeta de modelo |
MedGemma | Idioma, visión | Modelos de peso abierto (4000 y 27.000 millones de parámetros) diseñados para ofrecer un buen rendimiento en la comprensión de textos e imágenes médicos. | Tarjeta de modelo |
MedSigLIP | Idioma, visión | Modelo de peso abierto (codificador de visión con 400 M de parámetros y codificador de texto con 400 M de parámetros) diseñado para codificar imágenes y texto médicos en un espacio de inserción común. | Tarjeta de modelo |
T5Gemma | Idioma | Modelos codificador-decodificador de peso abierto (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L y XL-XL) creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos Gemini de Google. | Tarjeta de modelo |
Vicuna v1.5 | Idioma | Implementa modelos de la serie Vicuna v1.5, que son modelos fundacionales ajustados a partir de LLama2 para la generación de texto. | Tarjeta de modelo |
NLLB | Idioma | Despliega modelos de la serie NLLB para traducir contenido a varios idiomas. | Tarjeta de modelo Colab |
Mistral-7B | Idioma | Despliega Mistral-7B, un modelo básico para la generación de texto. | Tarjeta de modelo |
BioGPT | Idioma | Despliega BioGPT, un modelo generativo de texto para el ámbito biomédico. | Tarjeta de modelo Colab |
BiomedCLIP | Idioma, visión | Despliega BiomedCLIP, un modelo de base multimodal para el ámbito biomédico. | Tarjeta de modelo Colab |
ImageBind | Idioma, visión y audio |
Despliega ImageBind, un modelo fundacional para la incrustación multimodal. | Tarjeta de modelo Colab |
DITO | Idioma, visión | Ajusta y despliega DITO, un modelo básico multimodal para tareas de detección de objetos de vocabulario abierto. | Tarjeta de modelo Colab |
OWL-ViT v2 | Idioma, visión | Despliega OWL-ViT v2, un modelo de base multimodal para tareas de detección de objetos de vocabulario abierto. | Tarjeta de modelo Colab |
FaceStylizer (MediaPipe) | Vision | Un flujo de trabajo generativo para transformar imágenes de rostros humanos en un nuevo estilo. | Tarjeta de modelo Colab |
Llama 2 | Idioma | Ajusta y despliega los modelos fundacionales Llama 2 de Meta (7B, 13B y 70B) en Vertex AI. | Tarjeta de modelo |
Code Llama | Idioma | Despliega los modelos fundacionales Code Llama de Meta (7B, 13B y 34B) en Vertex AI. | Tarjeta de modelo |
Falcon-instruct | Idioma | Ajusta y despliega modelos de Falcon-instruct (7B y 40B) mediante PEFT. | Colab Tarjeta de modelo |
OpenLLaMA | Idioma | Ajusta y despliega modelos de OpenLLaMA (3B, 7B y 13B) mediante PEFT. | Colab Tarjeta de modelo |
T5-FLAN | Idioma | Ajusta y despliega T5-FLAN (base, small y large). | Tarjeta de modelo (se incluye la canalización de ajuste fino) |
BERT | Idioma | Ajusta y despliega BERT con PEFT. | Colab Tarjeta de modelo |
BART-large-cnn | Idioma | Despliega BART, un modelo de codificador-codificador (seq2seq) de transformador con un codificador bidireccional (similar a BERT) y un decodificador autorregresivo (similar a GPT). | Colab Tarjeta de modelo |
RoBERTa-large | Idioma | Ajusta y despliega RoBERTa-large con PEFT. | Colab Tarjeta de modelo |
XLM-RoBERTa-large | Idioma | Ajusta y despliega XLM-RoBERTa-large (una versión multilingüe de RoBERTa) mediante PEFT. | Colab Tarjeta de modelo |
Stable Diffusion XL v1.0 | Idioma, visión | Implementa Stable Diffusion XL v1.0, que admite la generación de imágenes a partir de texto. | Colab Tarjeta de modelo |
Stable Diffusion XL Lightning | Idioma, visión | Despliega Stable Diffusion XL Lightning, un modelo de generación de imágenes a partir de texto. | Colab Tarjeta de modelo |
Stable Diffusion v2.1 | Idioma, visión | Ajusta y despliega Stable Diffusion v2.1 (admite la generación de texto a imagen) con Dreambooth. | Colab Tarjeta de modelo |
Stable Diffusion 4x upscaler | Idioma, visión | Implementa el escalador 4x de Stable Diffusion, que admite la superresolución de imágenes condicionada por texto. | Colab Tarjeta de modelo |
InstructPix2Pix | Idioma, visión | Implementa InstructPix2Pix, que permite editar imágenes mediante una petición de texto. | Colab Tarjeta de modelo |
Pintura en la imagen de Stable Diffusion | Idioma, visión | Ajusta y despliega Stable Diffusion Inpainting, que permite pintar una imagen enmascarada mediante una petición de texto. | Colab Tarjeta de modelo |
SAM | Idioma, visión | Implementa Segment Anything, que admite la segmentación de imágenes sin ejemplos. | Colab Tarjeta de modelo |
Extracción de imágenes compuestas de Pic2Word | Idioma, visión | Implementa Pic2Word, que admite la recuperación de imágenes compuestas multimodales. | Colab Tarjeta de modelo |
BLIP2 | Idioma, visión | Implementa BLIP2, que admite la generación de subtítulos de imágenes y la respuesta a preguntas visuales. | Colab Tarjeta de modelo |
Open-CLIP | Idioma, visión | Ajusta y despliega Open-CLIP, que admite la clasificación sin ejemplos. | Colab Tarjeta de modelo |
F-VLM | Idioma, visión | Implementa F-VLM, que admite la detección de objetos de imagen con vocabulario abierto. | Colab Tarjeta de modelo |
tfhub/EfficientNetV2 | Vision | Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
EfficientNetV2 (TIMM) | Vision | Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
Propietario/EfficientNetV2 | Vision | Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes EfficientNetV2. | Colab Tarjeta de modelo |
EfficientNetLite (MediaPipe) | Vision | Ajusta un modelo de clasificación de imágenes de EfficientNetLite mediante MediaPipe Model Maker. | Colab Tarjeta de modelo |
tfvision/vit | Vision | Ajusta y despliega la implementación de TensorFlow Vision del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
ViT (TIMM) | Vision | Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
Propiedad/ViT | Vision | Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
Propietario/MaxViT | Vision | Ajusta y despliega el punto de control propietario de Google del modelo de clasificación de imágenes híbrido MaxViT (CNN + ViT). | Colab Tarjeta de modelo |
ViT (JAX) | Vision | Ajusta y despliega la implementación de JAX del modelo de clasificación de imágenes ViT. | Colab Tarjeta de modelo |
tfvision/SpineNet | Vision | Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos SpineNet. | Colab Tarjeta de modelo |
Propietario/Spinenet | Vision | Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos SpineNet. | Colab Tarjeta de modelo |
tfvision/YOLO | Vision | Ajusta y despliega la implementación de TensorFlow Vision del modelo de detección de objetos de una fase YOLO. | Colab Tarjeta de modelo |
Propiedad/YOLO | Vision | Ajusta y despliega el punto de control propietario de Google del modelo de detección de objetos de una fase de YOLO. | Colab Tarjeta de modelo |
YOLOv8 (Keras) | Vision | Ajusta y despliega la implementación de Keras del modelo YOLOv8 para la detección de objetos. | Colab Tarjeta de modelo |
tfvision/YOLOv7 | Vision | Ajusta y despliega el modelo YOLOv7 para la detección de objetos. | Colab Tarjeta de modelo |
Seguimiento de objetos de vídeo de ByteTrack | Vision | Ejecuta la predicción por lotes para monitorizar objetos de vídeo mediante el rastreador ByteTrack. | Colab Tarjeta de modelo |
ResNeSt (TIMM) | Vision | Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes ResNeSt. | Colab Tarjeta de modelo |
ConvNeXt (TIMM) | Vision | Ajusta y despliega ConvNeXt, un modelo convolucional puro para la clasificación de imágenes inspirado en el diseño de Vision Transformers. | Colab Tarjeta de modelo |
CspNet (TIMM) | Vision | Ajusta y despliega el modelo de clasificación de imágenes CSPNet (Cross Stage Partial Network). | Colab Tarjeta de modelo |
Inception (TIMM) | Vision | Ajusta y despliega el modelo de clasificación de imágenes Inception. | Colab Tarjeta de modelo |
DeepLabv3+ (con punto de control) | Vision | Ajusta y despliega el modelo DeepLab-v3 Plus para la segmentación semántica de imágenes. | Colab Tarjeta de modelo |
Faster R-CNN (Detectron2) | Vision | Ajusta y despliega la implementación de Detectron2 del modelo Faster R-CNN para la detección de objetos de imagen. | Colab Tarjeta de modelo |
RetinaNet (Detectron2) | Vision | Ajusta y despliega la implementación de Detectron2 del modelo RetinaNet para la detección de objetos de imagen. | Colab Tarjeta de modelo |
Mask R-CNN (Detectron2) | Vision | Ajusta y despliega la implementación de Detectron2 del modelo Mask R-CNN para la detección y segmentación de objetos de imagen. | Colab Tarjeta de modelo |
ControlNet | Vision | Ajusta y despliega el modelo de generación de texto a imagen ControlNet. | Colab Tarjeta de modelo |
MobileNet (TIMM) | Vision | Ajusta y despliega la implementación de PyTorch del modelo de clasificación de imágenes MobileNet. | Colab Tarjeta de modelo |
Clasificación de imágenes de MobileNetV2 (MediaPipe) | Vision | Ajusta el modelo de clasificación de imágenes MobileNetV2 mediante MediaPipe Model Maker. | Colab Tarjeta de modelo |
Detección de objetos de MobileNetV2 (MediaPipe) | Vision | Ajusta el modelo de detección de objetos MobileNetV2 con Model Maker de MediaPipe. | Colab Tarjeta de modelo |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajusta el modelo de detección de objetos MobileNet-MultiHW-AVG con Model Maker de MediaPipe. | Colab Tarjeta de modelo |
DeiT | Vision | Ajusta y despliega el modelo DeiT (Data-efficient Image Transformers) para clasificar imágenes. | Colab Tarjeta de modelo |
BEiT | Vision | Ajusta y despliega el modelo BEiT (Bidirectional Encoder representation from Image Transformers) para clasificar imágenes. | Colab Tarjeta de modelo |
Reconocimiento de gestos con la mano (MediaPipe) | Vision | Ajusta y despliega en el dispositivo los modelos de reconocimiento de gestos con la mano mediante MediaPipe. | Colab Tarjeta de modelo |
Clasificador de media de incrustaciones de palabras (MediaPipe) | Vision | Ajusta y despliega en el dispositivo los modelos de clasificador de incrustaciones de palabras medias con MediaPipe. | Colab Tarjeta de modelo |
Clasificador MobileBERT (MediaPipe) | Vision | Ajusta y despliega en el dispositivo los modelos de clasificador MobileBERT con MediaPipe. | Colab Tarjeta de modelo |
Clasificación de clips de vídeo de MoViNet | Vídeo | Ajusta y despliega modelos de clasificación de clips de vídeo de MoViNet. | Colab Tarjeta de modelo |
Reconocimiento de acciones en vídeos de MoViNet | Vídeo | Ajusta y despliega modelos de MoViNet para la inferencia de reconocimiento de acciones. | Colab Tarjeta de modelo |
Stable Diffusion XL LCM | Vision | Implementa este modelo, que usa el modelo de coherencia latente (LCM), para mejorar la generación de texto a imagen en los modelos de difusión latente. Para ello, permite crear imágenes de alta calidad más rápido y con menos pasos. | Colab Tarjeta de modelo |
LLaVA 1.5 | Visión e idioma | Despliega modelos de LLaVA 1.5. | Colab Tarjeta de modelo |
Pytorch-ZipNeRF | Visión y vídeo | Entrena el modelo Pytorch-ZipNeRF, que es una implementación de última generación del algoritmo ZipNeRF en el framework Pytorch, diseñado para una reconstrucción 3D eficiente y precisa a partir de imágenes 2D. | Colab Tarjeta de modelo |
Mixtral | Idioma | Despliega el modelo Mixtral, que es un modelo de lenguaje extenso (LLM) de mezcla de expertos (MoE) desarrollado por Mistral AI. | Tarjeta de modelo |
Llama 2 (cuantificado) | Idioma | Ajusta y despliega una versión cuantificada de los modelos Llama 2 de Meta. | Colab Tarjeta de modelo |
LaMa (Large Mask Inpainting) | Vision | Implementa LaMa, que usa convoluciones rápidas de Fourier (FFCs), una pérdida perceptual de campo receptivo alto y máscaras de entrenamiento grandes, lo que permite pintar imágenes con una resolución robusta. | Colab Tarjeta de modelo |
AutoGluon | Tabular | Con AutoGluon, puedes entrenar y desplegar modelos de aprendizaje automático y aprendizaje profundo de alta precisión para datos tabulares. | Colab Tarjeta de modelo |
MaMMUT | Idioma, visión | Una arquitectura de codificador de visión y decodificador de texto para tareas multimodales, como la búsqueda de respuestas visuales, la recuperación de imágenes y texto, la recuperación de texto e imágenes, y la generación de embeddings multimodales. | Colab Tarjeta de modelo |
Susurro (grande) | Voz | Implementa Whisper Large, el modelo de vanguardia de OpenAI para el reconocimiento de voz automático (ASR). | Colab Tarjeta de modelo |