Os modelos DeepSeek na Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo DeepSeek no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos DeepSeek usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.
Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos DeepSeek disponíveis
Os seguintes modelos estão disponíveis na DeepSeek para utilização no Vertex AI. Para aceder a um modelo DeepSeek, aceda ao respetivo cartão do modelo do Model Garden.
DeepSeek-V3.1
O DeepSeek-V3.1 é um modelo híbrido que suporta o modo de raciocínio e o modo de não raciocínio. Em comparação com a versão anterior, esta atualização traz melhorias nos modos de raciocínio híbrido, na chamada de ferramentas e na eficiência do raciocínio.
Aceda ao cartão do modelo DeepSeek-V3.1
DeepSeek R1 (0528)
O DeepSeek R1 (0528) é a versão mais recente do modelo DeepSeek R1. Em comparação com o DeepSeek-R1, tem uma profundidade de raciocínio e capacidades de inferência significativamente melhoradas. O DeepSeek R1 (0528) destaca-se numa vasta gama de tarefas, como escrita criativa, resposta a perguntas gerais, edição e resumo.
Considerações
- Para uma segurança pronta para produção, integre o DeepSeek R1 (0528) com o Model Armor, que analisa as respostas e os comandos do MDG em busca de vários riscos de segurança.
Aceda ao cartão do modelo DeepSeek R1 (0528)
Use os modelos DeepSeek
Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:
- Para o DeepSeek-V3.1, use
deepseek-v3.1-maas
- Para o DeepSeek R1 (0528), use
deepseek-r1-0528-maas
Antes de começar
Para usar os modelos DeepSeek com o Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com
) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:
- LOCATION: Uma região que suporta os modelos DeepSeek.
- MODEL: o nome do modelo que quer usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos funcionam com turnos alternados deuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - CONTENT: O conteúdo, como o texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que podem ser gerados na resposta. Um token tem
aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
- STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - LOCATION: Uma região que suporta os modelos DeepSeek.
- MODEL: o nome do modelo que quer usar.
- ROLE: a função associada a uma mensagem. Pode especificar um
user
ou umassistant
. A primeira mensagem tem de usar a funçãouser
. Os modelos funcionam com turnos alternados deuser
eassistant
. Se a mensagem final usar a funçãoassistant
, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo. - CONTENT: O conteúdo, como o texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
Número máximo de tokens que podem ser gerados na resposta. Um token tem
aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.
Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.
- STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como
true
para fazer streaming da resposta efalse
para devolver a resposta de uma só vez. - QPM: 1000
Faça uma chamada de streaming para um modelo DeepSeek
O exemplo seguinte faz uma chamada de streaming a um modelo DeepSeek:
REST
Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON do pedido:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Faça uma chamada sem streaming para um modelo DeepSeek
O exemplo seguinte faz uma chamada não de streaming a um modelo DeepSeek:
REST
Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Corpo JSON do pedido:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte.
Disponibilidade regional e quotas do modelo DeepSeek
Para os modelos DeepSeek, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).
Modelo | Região | Quotas | Comprimento do contexto |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163 840 | |
DeepSeek R1 (0528) | |||
us-central1 |
|
163 840 |
Se quiser aumentar alguma das suas quotas para a IA generativa na Vertex AI, pode usar a consola para pedir um aumento da quota. Google Cloud Para saber mais sobre as quotas, consulte o artigo Trabalhe com quotas.