Model AI Mistral

Model Mistral AI di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model Mistral AI di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model AI Mistral menggunakan API terkelola, tidak perlu menyediakan mengelola infrastruktur.

Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.

Anda membayar untuk model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Sebagai harga bayar sesuai penggunaan, lihat harga model AI Mistral di Harga Vertex AI halaman.

Model Mistral AI yang tersedia

Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model AI Mistral, buka Kartu model Model Garden.

Mistral Besar (2407)

Mistral Large (2407) adalah model unggulan Mistral AI untuk pembuatan teks. AI generatif mencapai kemampuan penalaran tingkat atas dan dapat digunakan untuk tugas multibahasa, termasuk pemahaman teks, transformasi, dan kode pembuatan teks. Untuk informasi selengkapnya, lihat postingan Mistral AI tentang Mistral Besar (2407).

Mistral Large (2407) terlihat menonjol pada dimensi berikut:

  • Didesain untuk mendukung multibahasa. Puluhan bahasa yang didukung, termasuk bahasa Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda dan Polandia.
  • Mahir dalam coding. Dilatih menggunakan lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih untuk bahasa yang lebih spesifik seperti Swift dan Fortran.
  • Berfokus pada Agen. Kemampuan agen terbaik di kelasnya dengan fungsi native untuk pemanggilan dan pembuatan output JSON.
  • Penalaran Lanjutan. Matematika dan penalaran yang canggih kemampuan IT.
Buka kartu model Mistral Large (2407)

Nemo Mistal

Mistral Nemo adalah perangkat milik Mistral yang paling hemat biaya model transformer. Ini adalah pilihan ideal untuk workload berlatensi rendah dan tugas sederhana yang dapat dilakukan secara massal, seperti klasifikasi, dukungan pelanggan, dan pembuatan teks. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Mistral AI.

Mistral Nemo dioptimalkan untuk kasus penggunaan berikut:

  • Membuat dan mengklasifikasikan teks.
  • Membuat agen untuk skenario dukungan pelanggan.
  • Membuat kode, penyelesaian, peninjauan, dan komentar. Mendukung semua layanan umum bahasa pengkodean.
Buka kartu model Mistral Nemo

Codestral

Codetral adalah model generatif yang telah dirancang khusus dan dioptimalkan untuk tugas pembuatan kode, termasuk fill-in-the-middle dan pelengkapan kode. Codestral dilatih lebih dari 80 pemrograman bahasa pemrograman, yang memungkinkannya berperforma baik pada bahasa yang umum dan kurang umum. Untuk informasi selengkapnya, lihat pembuatan kode Mistral AI dokumentasi tambahan.

Codetral dioptimalkan untuk kasus penggunaan berikut:

  • Menghasilkan kode, memberikan penyelesaian kode, saran, dan terjemahan.
  • Memahami kode untuk memberikan ringkasan dan penjelasan kode Anda.
  • Meninjau kualitas kode dengan membantu pemfaktoran ulang kode, memperbaiki {i>bug<i}, dan membuat kasus pengujian.
Buka kartu model Codestral

Menggunakan model AI Mistral

Saat Anda mengirim permintaan untuk menggunakan model AI Mistral, gunakan model berikut nama:

  • Untuk Mistral Large (2407), gunakan mistral-large@2407.
  • Untuk Mistral Nemo, gunakan mistral-nemo@2407.
  • Untuk Codetral, gunakan codestral@2405.

Sebaiknya gunakan versi model yang menyertakan akhiran yang dimulai dengan simbol @ karena kemungkinan perbedaan antara versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat perubahan.

Untuk informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat Dokumentasi Vertex AI Mistral AI.

Sebelum memulai

Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan agar dapat menggunakan Vertex AI. Jika Anda sudah memiliki project dengan Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat project baru.

Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Vertex AI.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API Vertex AI.

    Mengaktifkan API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:

Melakukan panggilan streaming ke model AI Mistral

Contoh berikut melakukan panggilan streaming ke model AI Mistral.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung Model AI Mistral.
  • MODEL: Nama model yang ingin Anda gunakan. Di beberapa isi permintaan, kecualikan versi model @ angka
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Isi JSON permintaan:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Melakukan panggilan unary ke model AI Mistral

Contoh berikut melakukan panggilan unary ke model AI Mistral.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung Model AI Mistral.
  • MODEL: Nama model yang ingin Anda gunakan. Di beberapa isi permintaan, kecualikan versi model @ angka
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Isi JSON permintaan:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Ketersediaan dan kuota region model AI Mistral

Untuk model Mistral AI, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token masukan dan {i>output<i}.

Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model AI Mistral tercantum dalam tabel berikut:

Mistral Besar (2407)

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Nemo Mistal

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Codestral

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM, 200.000 TPM 32.000 token
europe-west4 60 QPM, 200.000 TPM 32.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.