Model DeepSeek

Model DeepSeek di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan serverless. Untuk menggunakan model DeepSeek di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model DeepSeek menggunakan API terkelola, tidak ada infrastruktur yang perlu disediakan atau dikelola.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk mengalirkan respons secara bertahap.

Model DeepSeek yang tersedia

Model berikut tersedia dari DeepSeek untuk digunakan di Vertex AI. Untuk mengakses model DeepSeek, buka kartu modelnya di Model Garden.

DeepSeek-V3.1

DeepSeek-V3.1 adalah model hybrid yang mendukung mode berpikir dan mode non-berpikir. Dibandingkan dengan versi sebelumnya, upgrade ini menghadirkan peningkatan pada mode pemikiran hybrid, pemanggilan alat, dan efisiensi pemikiran.

DeepSeek R1 (0528)

DeepSeek R1 (0528) adalah versi terbaru model DeepSeek R1. Dibandingkan dengan DeepSeek-R1, model ini memiliki kemampuan penalaran dan inferensi yang jauh lebih baik. DeepSeek R1 (0528) unggul dalam berbagai tugas, seperti penulisan kreatif, menjawab pertanyaan umum, pengeditan, dan peringkasan.

Pertimbangan

  • Untuk keamanan yang siap digunakan dalam produksi, integrasikan DeepSeek R1 (0528) dengan Model Armor, yang menyaring perintah dan respons LLM untuk berbagai risiko keamanan dan keselamatan.

Buka kartu model DeepSeek R1 (0528)

Menggunakan model DeepSeek

Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:

  • Untuk DeepSeek-V3.1, gunakan deepseek-v3.1-maas
  • Untuk DeepSeek R1 (0528), gunakan deepseek-r1-0528-maas

Sebelum memulai

Untuk menggunakan model DeepSeek dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
  9. Melakukan panggilan streaming ke model DeepSeek

    Contoh berikut melakukan panggilan streaming ke model DeepSeek:

    REST

    Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model DeepSeek.
    • MODEL: Nama model yang ingin Anda gunakan.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Isi JSON permintaan:

    {
      "model": "deepseek-ai/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": true
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Melakukan panggilan non-streaming ke model DeepSeek

    Contoh berikut membuat panggilan non-streaming ke model DeepSeek:

    REST

    Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model DeepSeek.
    • MODEL: Nama model yang ingin Anda gunakan.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Isi JSON permintaan:

    {
      "model": "deepseek-ai/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": false
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Ketersediaan wilayah dan kuota model DeepSeek

    Untuk model DeepSeek, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).

    Model Wilayah Kuota Panjang konteks
    DeepSeek-V3.1
    us-west2
    163.840
    DeepSeek R1 (0528)
    us-central1
    • QPM: 1000
    163.840

    Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.