Vertex AI admite una lista seleccionada de modelos abiertos como modelos administrados. Estos modelos abiertos se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo abierto administrado, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos abiertos administrados no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.
Los modelos abiertos administrados se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden.
Modelos abiertos
Los siguientes modelos abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
gpt-oss 120B | Idioma | Un modelo de 120 mil millones de parámetros que ofrece un alto rendimiento en tareas de razonamiento. | Tarjeta de modelo |
gpt-oss 20B | Idioma | Es un modelo de 20B optimizado para la eficiencia y la implementación en hardware de consumo y de borde. | Tarjeta de modelo |
Qwen3-Next-80B Thinking | Idioma, código | Es un modelo de la familia Qwen3-Next, especializado en la resolución de problemas complejos y el razonamiento profundo. | Tarjeta de modelo |
Qwen3-Next-80B Instruct | Idioma, código | Es un modelo de la familia Qwen3-Next, especializado en seguir comandos específicos. | Tarjeta de modelo |
Qwen3 Coder | Idioma, código | Es un modelo de código abierto desarrollado para tareas avanzadas de desarrollo de software. | Tarjeta de modelo |
Qwen3 235B | Idioma | Un modelo de peso abierto con capacidad de "pensamiento híbrido" para alternar entre el razonamiento metódico y la conversación rápida. | Tarjeta de modelo |
DeepSeek-V3.1 | Idioma | Modelo híbrido de DeepSeek que admite el modo de pensamiento y el modo sin pensamiento. | Tarjeta de modelo |
DeepSeek R1 (0528) | Idioma | Es la versión más reciente del modelo DeepSeek R1 de DeepSeek. | Tarjeta de modelo |
Llama 4 Maverick 17B-128E | Lenguaje, Vision | El modelo de Llama 4 más grande y potente, con capacidades de programación, razonamiento y procesamiento de imágenes. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión temprana. | Tarjeta de modelo |
Llama 4 Scout 17B-16E | Lenguaje, Vision | Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y fusión anticipada. | Tarjeta de modelo |
Llama 3.3 | Idioma | Llama 3.3 es un modelo de solo texto ajustado por instrucciones de 70B que proporciona un rendimiento mejorado en comparación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto. Además, para algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. | Tarjeta de modelo |
Llama 3.2 (vista previa) | Lenguaje, Vision | Un modelo multimodal de tamaño medio de 90 B que puede admitir el razonamiento de imágenes, como el análisis de gráficos y diagramas, así como la leyenda de imágenes. | Tarjeta de modelo |
Llama 3.1 | Idioma |
Una colección de LLMs multilingües optimizados para casos de uso de diálogos multilingües que superan el rendimiento de muchos de los modelos de chat cerrados y de código abierto disponibles en comparativas comunes de la industria. Llama 3.1 405b tiene disponibilidad general (DG). Llama 3.1 8B y Llama 3.1 70B están en versión preliminar. |
Tarjeta de modelo |
Los siguientes modelos de incorporación abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
Nombre del modelo | Descripción | Dimensiones de salida | Longitud de secuencia máxima | Lenguajes de texto admitidos | Guía de inicio rápido |
---|---|---|---|---|---|
multilingual-e5-small | Es parte de la familia de modelos de embedding de texto E5. La variante pequeña contiene 12 capas. | Hasta 384 | 512 tokens | Idiomas admitidos | Tarjeta de modelo |
multilingual-e5-large | Es parte de la familia de modelos de embedding de texto E5. La variante grande contiene 24 capas. | Hasta 1,024 | 512 tokens | Idiomas admitidos | Tarjeta de modelo |
Extremos regionales y globales
En el caso de los extremos regionales, las solicitudes se entregan desde la región que especificaste. En los casos en los que tengas requisitos de residencia de datos o si un modelo no admite el extremo global, usa los extremos regionales.
Cuando usas el extremo global, Google puede procesar y entregar tus solicitudes desde cualquier región compatible con el modelo que usas. En algunos casos, esto puede generar una latencia más alta. El extremo global ayuda a mejorar la disponibilidad general y a reducir los errores.
No hay diferencia de precios con los extremos regionales cuando usas el extremo global. Sin embargo, las cuotas del extremo global y las capacidades del modelo admitido pueden diferir de las de los extremos regionales. Para obtener más información, consulta la página del modelo de terceros relacionado.
Especifica el extremo global
Para usar el extremo global, configura la región como global
.
Por ejemplo, la URL de solicitud para un comando curl usa el siguiente formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
En el SDK de Vertex AI, un extremo regional es el valor predeterminado. Configura la región como GLOBAL
para usar el extremo global.
Restringe el uso del extremo de API global
Para ayudar a aplicar el uso de extremos regionales, usa la restricción de política de la organización constraints/gcp.restrictEndpointUsage
para bloquear las solicitudes al extremo de API global. Para obtener más información, consulta Cómo restringir el uso de extremos.
Otorga acceso de usuario a los modelos abiertos
Para que puedas habilitar modelos abiertos y realizar una solicitud inmediata, un administrador de Google Cloud debe establecer los permisos necesarios y verificar que la política de la organización permita el uso de las APIs requeridas.
Establece los permisos necesarios para usar modelos abiertos
Se requieren los siguientes roles y permisos para usar los modelos abiertos:
Debes tener el rol de Identity and Access Management (IAM) de administrador de autorizaciones de adquisición de consumidores. Cualquier persona a la que se le haya otorgado este rol puede habilitar modelos abiertos en Model Garden.
Debes tener el permiso
aiplatform.endpoints.predict
. Este permiso se incluye en el rol de IAM de usuario de Vertex AI. Para obtener más información, consulta Usuario de Vertex AI y Control de acceso.
Console
Para otorgar los roles de IAM de Administrador de autorizaciones de adquisición de consumidores a un usuario, ve a la página IAM.
En la columna Principal, busca la principal del usuario para el que deseas habilitar el acceso a los modelos abiertos y, luego, haz clic en Editar principal en esa fila.
En el panel Editar permisos, haz clic en
Agregar otra función.En Selecciona un rol, selecciona Administrador de autorizaciones de adquisición de consumidores.
En el panel Editar permisos, haz clic en
Agregar otro rol.En Selecciona un rol, selecciona Usuario de Vertex AI.
Haz clic en Guardar.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Otorga el rol de administrador de derechos de adquisición de consumidores que se requiere para habilitar modelos abiertos en Model Garden.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Otorga el rol de usuario de Vertex AI que incluye el permiso
aiplatform.endpoints.predict
, que es necesario para realizar solicitudes inmediatas:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Reemplaza
PRINCIPAL
por el identificador de la principal. El identificador tiene la formauser|group|serviceAccount:email
odomain:domain
, por ejemplo:user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
odomain:example.domain.com
.El resultado es una lista de vinculaciones de políticas que incluye lo siguiente:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Para obtener más información, consulta Otorga un solo rol y
gcloud projects add-iam-policy-binding
.
Establece la política de la organización para el acceso al modelo abierto
Para habilitar los modelos abiertos, la política de la organización debe permitir la siguiente API: API de Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com
Si tu organización configura una política de la organización para
restringir el uso del servicio,
un administrador de la organización debe verificar que
cloudcommerceconsumerprocurement.googleapis.com
esté permitido a través de la
configuración de la política de la organización.
Además, si tienes una política de la organización que restringe el uso de modelos en Model Garden, la política debe permitir el acceso a los modelos abiertos. Para obtener más información, consulta Cómo controlar el acceso al modelo.
Cumplimiento de las reglamentaciones del modelo abierto
Las certificaciones de la IA generativa en Vertex AI siguen siendo válidas cuando se usan modelos abiertos como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos, puedes encontrar información adicional en la tarjeta del modelo correspondiente o comunicarte con el editor del modelo respectivo.
Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos abiertos en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos abiertos, consulta Residencia de datos para modelos abiertos.
Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos abiertos. Google solo trata los datos del cliente según las instrucciones del cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.