Model Mistral AI di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model Mistral AI di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model AI Mistral menggunakan API terkelola, tidak perlu menyediakan mengelola infrastruktur.
Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.
Anda membayar untuk model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Sebagai harga bayar sesuai penggunaan, lihat harga model AI Mistral di Harga Vertex AI halaman.
Model Mistral AI yang tersedia
Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model AI Mistral, buka Kartu model Model Garden.
Mistral Besar (2407)
Mistral Large (2407) adalah model unggulan Mistral AI untuk pembuatan teks. AI generatif mencapai kemampuan penalaran tingkat atas dan dapat digunakan untuk tugas multibahasa, termasuk pemahaman teks, transformasi, dan kode pembuatan teks. Untuk informasi selengkapnya, lihat postingan Mistral AI tentang Mistral Besar (2407).
Mistral Large (2407) terlihat menonjol pada dimensi berikut:
- Didesain untuk mendukung multibahasa. Puluhan bahasa yang didukung, termasuk bahasa Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda dan Polandia.
- Mahir dalam coding. Dilatih menggunakan lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih untuk bahasa yang lebih spesifik seperti Swift dan Fortran.
- Berfokus pada Agen. Kemampuan agen terbaik di kelasnya dengan fungsi native untuk pemanggilan dan pembuatan output JSON.
- Penalaran Lanjutan. Matematika dan penalaran yang canggih kemampuan IT.
Nemo Mistal
Mistral Nemo adalah perangkat milik Mistral yang paling hemat biaya model transformer. Ini adalah pilihan ideal untuk workload berlatensi rendah dan tugas sederhana yang dapat dilakukan secara massal, seperti klasifikasi, dukungan pelanggan, dan pembuatan teks. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Mistral AI.
Mistral Nemo dioptimalkan untuk kasus penggunaan berikut:
- Membuat dan mengklasifikasikan teks.
- Membuat agen untuk skenario dukungan pelanggan.
- Membuat kode, penyelesaian, peninjauan, dan komentar. Mendukung semua layanan umum bahasa pengkodean.
Codestral
Codetral adalah model generatif yang telah dirancang khusus dan dioptimalkan untuk tugas pembuatan kode, termasuk fill-in-the-middle dan pelengkapan kode. Codestral dilatih lebih dari 80 pemrograman bahasa pemrograman, yang memungkinkannya berperforma baik pada bahasa yang umum dan kurang umum. Untuk informasi selengkapnya, lihat pembuatan kode Mistral AI dokumentasi tambahan.
Codetral dioptimalkan untuk kasus penggunaan berikut:
- Menghasilkan kode, memberikan penyelesaian kode, saran, dan terjemahan.
- Memahami kode untuk memberikan ringkasan dan penjelasan kode Anda.
- Meninjau kualitas kode dengan membantu pemfaktoran ulang kode, memperbaiki {i>bug<i}, dan membuat kasus pengujian.
Menggunakan model AI Mistral
Saat Anda mengirim permintaan untuk menggunakan model AI Mistral, gunakan model berikut nama:
- Untuk Mistral Large (2407), gunakan
mistral-large@2407
. - Untuk Mistral Nemo, gunakan
mistral-nemo@2407
. - Untuk Codetral, gunakan
codestral@2405
.
Sebaiknya gunakan versi model yang menyertakan akhiran yang
dimulai dengan simbol @
karena kemungkinan perbedaan antara
versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah
selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat
perubahan.
Untuk informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat Dokumentasi Vertex AI Mistral AI.
Sebelum memulai
Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan agar dapat menggunakan
Vertex AI. Jika Anda sudah memiliki project dengan
Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat
project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
- Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:
Melakukan panggilan streaming ke model AI Mistral
Contoh berikut melakukan panggilan streaming ke model AI Mistral.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung Model AI Mistral.
- MODEL: Nama model yang ingin Anda gunakan. Di beberapa
isi permintaan, kecualikan versi model
@
angka - ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah
kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan unary ke model AI Mistral
Contoh berikut melakukan panggilan unary ke model AI Mistral.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung Model AI Mistral.
- MODEL: Nama model yang ingin Anda gunakan. Di beberapa
isi permintaan, kecualikan versi model
@
angka - ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah
kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan dan kuota region model AI Mistral
Untuk model Mistral AI, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token masukan dan {i>output<i}.
Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model AI Mistral tercantum dalam tabel berikut:
Mistral Besar (2407)
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Nemo Mistal
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Codestral
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 32.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 32.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.