Halaman ini diterjemahkan oleh Cloud Translation API.

Model AI Mistral

Model AI Mistral di Vertex AI menawarkan model terkelola sepenuhnya dan tanpa server sebagai API. Untuk menggunakan model Mistral AI di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Mistral AI menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Anda membayar model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Mistral AI di halaman harga Vertex AI.

Model AI Mistral yang tersedia

Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model Mistral AI, buka kartu model Model Garden-nya.

Mistral Besar (24,11)

Mistral Large (24.11) adalah versi terbaru model Large Mistral AI yang kini memiliki kemampuan pemanggilan fungsi dan penalaran yang ditingkatkan.

Berfokus pada agen: kemampuan agen terbaik di kelasnya dengan panggilan fungsi bawaan dan output JSON.
Multibahasa secara desain: puluhan bahasa didukung, termasuk bahasa Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda, dan Polandia
Mahir dalam coding: terlatih dalam lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih pada bahasa yang lebih spesifik seperti Swift dan Fortran
Logika lanjutan: kemampuan matematika dan logika canggih.

Buka kartu model Mistral Large (24.11)

Mistral Nemo

Mistral Nemo adalah model eksklusif Mistral AI yang paling hemat biaya. Ini adalah pilihan ideal untuk beban kerja latensi rendah dan tugas dasar yang dapat dilakukan secara massal, seperti klasifikasi, dukungan pelanggan, dan pembuatan teks. Untuk informasi selengkapnya, lihat dokumentasi Mistral AI.

Mistral Nemo dioptimalkan untuk kasus penggunaan berikut:

Membuat dan mengklasifikasikan teks.
Membuat agen untuk skenario dukungan pelanggan.
Membuat kode, penyelesaian, peninjauan, dan komentar. Mendukung semua bahasa coding mainstream.

Buka kartu model Mistral Nemo

Codestral (25.01)

Codestral (25.01) dirancang untuk tugas pembuatan kode. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan petunjuk bersama. Karena menguasai kode beserta kemampuannya untuk berkomunikasi dalam berbagai bahasa, Anda dapat menggunakan Codestral (25.01) untuk mendesain aplikasi AI lanjutan bagi developer software.

Codestral (25.01) fasih dalam lebih dari 80 bahasa pemrograman, termasuk Python, Java, C, C++, JavaScript, dan Bash. Performanya juga baik pada bahasa yang lebih spesifik seperti Swift dan Fortran.
Codestral (25.01) membantu meningkatkan produktivitas developer dan mengurangi error: Codestral (25.01) dapat menyelesaikan fungsi coding, menulis pengujian, dan menyelesaikan kode parsial menggunakan mekanisme isi bagian tengah.
Codestral (25.01) memberikan standar baru pada ruang performa dan latensi hanya dengan parameter 24B dan jendela konteks 128.000.

Codestral (25.01) dioptimalkan untuk kasus penggunaan berikut:

Menghasilkan kode dan memberikan penyelesaian, saran, dan terjemahan kode.
Menambahkan kode antara titik awal dan akhir yang ditentukan pengguna, yang menjadikannya ideal untuk tugas yang memerlukan bagian kode tertentu untuk dibuat.
Merangkum dan menjelaskan kode Anda.
Meninjau kualitas kode Anda dengan membantu memfaktorkan ulang kode, memperbaiki bug, dan membuat kasus pengujian.

Buka kartu model Codestral (25.01)

Menggunakan model AI Mistral

Saat Anda mengirim permintaan untuk menggunakan model Mistral AI, gunakan nama model berikut:

Untuk Mistral Large (24.11), gunakan mistral-large-2411.
Untuk Mistral Nemo, gunakan mistral-nemo@2407.
Untuk Codestral (25.01), gunakan codestral-2501.

Untuk mengetahui informasi selengkapnya tentang cara menggunakan Mistral AI SDK, lihat dokumentasi Vertex AI Mistral AI.

Sebelum memulai

Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan model partner. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Buka salah satu kartu model Mistral AI Model Garden, lalu klik Aktifkan.

Melakukan panggilan streaming ke model Mistral AI

Contoh berikut melakukan panggilan streaming ke model Mistral AI.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model AI Mistral.
MODEL: Nama model yang ingin Anda gunakan. Dalam isi permintaan, kecualikan nomor versi model @.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model ini beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan akhir menggunakan peran assistant, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Isi JSON permintaan:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI dengan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Melakukan panggilan unary ke model Mistral AI

Contoh berikut membuat panggilan unary ke model Mistral AI.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION: Region yang mendukung model AI Mistral.
MODEL: Nama model yang ingin Anda gunakan. Dalam isi permintaan, kecualikan nomor versi model @.
ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model ini beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan akhir menggunakan peran assistant, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model.
STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
CONTENT: Konten, seperti teks, dari pesan user atau assistant.
MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Isi JSON permintaan:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Ketersediaan dan kuota region model Mistral AI

Untuk model Mistral AI, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.

Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap model Mistral AI tercantum dalam tabel berikut:

Mistral Besar (24,11)

Wilayah	Sistem kuota	Panjang konteks yang didukung
`us-central1`	60 QPM, 400.000 TPM	128.000 token
`europe-west4`	60 QPM, 400.000 TPM	128.000 token

Mistral Nemo

Wilayah	Sistem kuota	Panjang konteks yang didukung
`us-central1`	60 QPM, 400.000 TPM	128.000 token
`europe-west4`	60 QPM, 400.000 TPM	128.000 token

Codestral (25.01)

Wilayah	Sistem kuota	Panjang konteks yang didukung
`us-central1`	60 QPM, 400.000 TPM	32.000 token
`europe-west4`	60 QPM, 400.000 TPM	32.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.