Model AI21 Labs di Vertex AI menawarkan model terkelola sepenuhnya dan tanpa server sebagai API. Untuk menggunakan model AI21 Labs di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model AI21 Labs menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Anda membayar model AI21 Labs saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model AI21 Labs di halaman harga Vertex AI.
Model AI21 Labs yang tersedia
Model berikut tersedia dari AI21 Labs untuk digunakan di Vertex AI. Untuk mengakses model AI21 Labs, buka kartu model Model Garden-nya.
Jamba 1.5 Mini
Jamba 1.5 Mini dari AI21 Labs adalah model dasar kecil yang dibuat dari arsitektur campuran yang memanfaatkan arsitektur Mamba dan arsitektur Transformer untuk mencapai kualitas terbaik dengan harga yang kompetitif.
Dengan arsitektur campuran SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Mini secara efisien memecahkan berbagai kasus penggunaan perusahaan untuk pembuatan teks dan pemahaman teks.
Jamba 1.5 Mini ideal untuk alur kerja perusahaan dengan tugas yang memerlukan banyak data dan memerlukan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan respons yang akurat dan menyeluruh, seperti meringkas dokumen panjang atau memungkinkan menjawab pertanyaan di seluruh basis pengetahuan organisasi yang luas. Jamba 1.5 Mini memiliki keseimbangan yang baik dalam kualitas, throughput, dan biaya yang rendah.
Buka kartu model Jamba 1.5 MiniJamba 1.5 Large
Jamba 1.5 Large dari AI21 Labs adalah model dasar yang dibuat dari arsitektur campuran yang memanfaatkan arsitektur Mamba dan arsitektur Transformer untuk mencapai kualitas terbaik dengan harga yang kompetitif.
Dengan arsitektur campuran SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Large secara efisien memecahkan berbagai kasus penggunaan perusahaan untuk pembuatan teks dan pemahaman teks. Jamba 1.5 Large memiliki 94 B parameter aktif dan total parameter 398 B yang menghasilkan respons yang sangat akurat.
Jamba 1.5 Large ideal untuk alur kerja perusahaan dengan tugas yang memerlukan banyak data dan memerlukan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan respons yang akurat dan menyeluruh, seperti meringkas dokumen panjang atau memungkinkan menjawab pertanyaan di seluruh pusat informasi organisasi yang luas. Jamba 1.5 Large dirancang untuk respons berkualitas unggul, throughput tinggi, dan harga yang kompetitif dengan model lain dalam kelas ukurannya.
Buka kartu model Jamba 1.5 LargeMenggunakan model AI21 Labs
Saat Anda mengirim permintaan untuk menggunakan model AI21 Labs, gunakan nama model berikut:
- Untuk Jamba 1.5 Mini, gunakan
jamba-1.5-mini@001
. - Untuk Jamba 1.5 Large, gunakan
jamba-1.5-large@001
.
Sebaiknya gunakan versi model yang menyertakan akhiran yang
dimulai dengan simbol @
karena kemungkinan perbedaan antara
versi model. Jika Anda tidak menentukan versi model, versi terbaru akan selalu digunakan, yang dapat secara tidak sengaja memengaruhi alur kerja Anda saat versi model berubah.
Sebelum memulai
Untuk menggunakan model AI21 Labs dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan untuk menggunakan
Vertex AI. Jika sudah memiliki project dengan
Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan
membuat project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan model partner. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Buka salah satu kartu model Model Garden berikut, lalu klik enable:
Melakukan panggilan streaming ke model AI21 Labs
Contoh berikut melakukan panggilan streaming ke model AI21 Labs.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model AI21 Labs.
- MODEL: Nama model yang ingin Anda gunakan. Dalam
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model ini beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan akhir menggunakan peranassistant
, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari
sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan non-streaming ke model AI21 Labs
Contoh berikut melakukan panggilan non-streaming ke model AI21 Labs.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model AI21 Labs.
- MODEL: Nama model yang ingin Anda gunakan. Dalam
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model ini beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan akhir menggunakan peranassistant
, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari
sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan dan kuota region model AI21 Labs
Untuk model AI21 Labs, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.
Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap model AI21 Labs tercantum dalam tabel berikut:
Jamba 1.5 Mini
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
50 QPM, 60.000 TPM | 256.000 token |
europe-west4 |
50 QPM, 60.000 TPM | 256.000 token |
Jamba 1.5 Large
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
20 QPM, 20.000 TPM | 256.000 token |
europe-west4 |
20 QPM, 20.000 TPM | 256.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.