Los modelos de DeepSeek en Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo de DeepSeek en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos de DeepSeek usan una API gestionada, no es necesario aprovisionar ni gestionar ninguna infraestructura.
Puedes transmitir tus respuestas para reducir la latencia que perciben los usuarios finales. Una respuesta en streaming usa eventos enviados por el servidor (SSE) para enviar la respuesta de forma incremental.
Modelos de DeepSeek disponibles
Los siguientes modelos están disponibles en DeepSeek para usarlos en Vertex AI. Para acceder a un modelo de DeepSeek, ve a la tarjeta de modelo de Model Garden.
DeepSeek-V3.1
DeepSeek V3.1 es un modelo híbrido que admite tanto el modo de pensamiento como el modo sin pensamiento. En comparación con la versión anterior, esta actualización ofrece mejoras en los modos de pensamiento híbrido, la llamada a herramientas y la eficiencia del pensamiento.
DeepSeek R1 (0528)
DeepSeek R1 (0528) es la versión más reciente del modelo DeepSeek R1. En comparación con DeepSeek-R1, ha mejorado significativamente la profundidad del razonamiento y las capacidades de inferencia. DeepSeek R1 (0528) destaca en una amplia gama de tareas, como la escritura creativa, la respuesta a preguntas generales, la edición y la creación de resúmenes.
Cuestiones importantes
- Para disfrutar de una seguridad lista para producción, integra DeepSeek R1 (0528) con Model Armor, que analiza las peticiones y respuestas de los LLMs para detectar diversos riesgos de seguridad.
Ir a la tarjeta del modelo DeepSeek R1 (0528)
Usar modelos de DeepSeek
Puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:
- En el caso de DeepSeek-V3.1, usa
deepseek-v3.1-maas
. - En DeepSeek R1 (0528), usa
deepseek-r1-0528-maas
.
Antes de empezar
Para usar los modelos de DeepSeek con Vertex AI, debes seguir estos pasos. La API de Vertex AI
(aiplatform.googleapis.com
) debe estar habilitada para usar
Vertex AI. Si ya tienes un proyecto con la API Vertex AI habilitada, puedes usarlo en lugar de crear uno nuevo.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Ve a una de las siguientes tarjetas de modelo de Model Garden y haz clic en Habilitar:
- LOCATION: una región que admite modelos de DeepSeek.
- MODEL: el nombre del modelo que quieras usar.
- ROLE: el rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos funcionan con turnos alternos deuser
yassistant
. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo. - CONTENT: el contenido, como el
texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente cuatro caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.
Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.
- STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como
true
para transmitir la respuesta yfalse
para devolver la respuesta de una vez. - LOCATION: una región que admite modelos de DeepSeek.
- MODEL: el nombre del modelo que quieras usar.
- ROLE: el rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos funcionan con turnos alternos deuser
yassistant
. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo. - CONTENT: el contenido, como el
texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente cuatro caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.
Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.
- STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como
true
para transmitir la respuesta yfalse
para devolver la respuesta de una vez. - QPM: 1000
Hacer una llamada de streaming a un modelo de DeepSeek
En el siguiente ejemplo se hace una llamada de streaming a un modelo de DeepSeek:
REST
Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Cuerpo JSON de la solicitud:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente.
Hacer una llamada sin streaming a un modelo de DeepSeek
En el siguiente ejemplo se hace una llamada sin streaming a un modelo de DeepSeek:
REST
Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Cuerpo JSON de la solicitud:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente.
Disponibilidad y cuotas de las regiones del modelo DeepSeek
En el caso de los modelos de DeepSeek, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (CPM).
Modelo | Región | Cuotas | Longitud del contexto |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163.840 | |
DeepSeek R1 (0528) | |||
us-central1 |
|
163.840 |
Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta el artículo Trabajar con cuotas.