Modelos DeepSeek

Os modelos DeepSeek na Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo DeepSeek no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos DeepSeek usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.

Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos DeepSeek disponíveis

Os seguintes modelos estão disponíveis na DeepSeek para utilização no Vertex AI. Para aceder a um modelo DeepSeek, aceda ao respetivo cartão do modelo do Model Garden.

DeepSeek-V3.1

O DeepSeek-V3.1 é um modelo híbrido que suporta o modo de raciocínio e o modo de não raciocínio. Em comparação com a versão anterior, esta atualização traz melhorias nos modos de raciocínio híbrido, na chamada de ferramentas e na eficiência do raciocínio.

Aceda ao cartão do modelo DeepSeek-V3.1

DeepSeek R1 (0528)

O DeepSeek R1 (0528) é a versão mais recente do modelo DeepSeek R1. Em comparação com o DeepSeek-R1, tem uma profundidade de raciocínio e capacidades de inferência significativamente melhoradas. O DeepSeek R1 (0528) destaca-se numa vasta gama de tarefas, como escrita criativa, resposta a perguntas gerais, edição e resumo.

Considerações

  • Para uma segurança pronta para produção, integre o DeepSeek R1 (0528) com o Model Armor, que analisa as respostas e os comandos do MDG em busca de vários riscos de segurança.

Aceda ao cartão do modelo DeepSeek R1 (0528)

Use os modelos DeepSeek

Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:

  • Para o DeepSeek-V3.1, use deepseek-v3.1-maas
  • Para o DeepSeek R1 (0528), use deepseek-r1-0528-maas

Antes de começar

Para usar os modelos DeepSeek com o Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:
  9. Faça uma chamada de streaming para um modelo DeepSeek

    O exemplo seguinte faz uma chamada de streaming a um modelo DeepSeek:

    REST

    Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

    Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

    • LOCATION: Uma região que suporta os modelos DeepSeek.
    • MODEL: o nome do modelo que quer usar.
    • ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
    • CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.

      Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.

    • STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Corpo JSON do pedido:

    {
      "model": "deepseek-ai/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": true
    }
    

    Para enviar o seu pedido, escolha uma destas opções:

    curl

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Deve receber uma resposta JSON semelhante à seguinte.

    Faça uma chamada sem streaming para um modelo DeepSeek

    O exemplo seguinte faz uma chamada não de streaming a um modelo DeepSeek:

    REST

    Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

    Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

    • LOCATION: Uma região que suporta os modelos DeepSeek.
    • MODEL: o nome do modelo que quer usar.
    • ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
    • CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente quatro carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.

      Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.

    • STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Corpo JSON do pedido:

    {
      "model": "deepseek-ai/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": false
    }
    

    Para enviar o seu pedido, escolha uma destas opções:

    curl

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Deve receber uma resposta JSON semelhante à seguinte.

    Disponibilidade regional e quotas do modelo DeepSeek

    Para os modelos DeepSeek, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).

    Modelo Região Quotas Comprimento do contexto
    DeepSeek-V3.1
    us-west2
    163 840
    DeepSeek R1 (0528)
    us-central1
    • QPM: 1000
    163 840

    Se quiser aumentar alguma das suas quotas para a IA generativa na Vertex AI, pode usar a consola para pedir um aumento da quota. Google Cloud Para saber mais sobre as quotas, consulte o artigo Trabalhe com quotas.