Model AI21 Labs di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model AI21 Labs di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model Lab AI21 menggunakan API terkelola, sehingga tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.
Anda membayar untuk model AI21 Labs saat Anda menggunakannya (bayar sesuai penggunaan). Sebagai harga bayar sesuai penggunaan, lihat harga model AI21 Labs di Harga Vertex AI halaman.
Model Lab AI21 yang tersedia
Model berikut tersedia dari AI21 Labs untuk digunakan dalam Vertex AI. Untuk mengakses model AI21 Labs, buka Kartu model Model Garden.
Jamba 1.5 Mini
Jamba 1.5 Mini dari AI21 Labs adalah model dasar kecil yang arsitektur hybrid yang memanfaatkan arsitektur Mamba dan Transformer arsitektur untuk mencapai kualitas terbaik dengan harga yang kompetitif.
Dengan arsitektur hybrid SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Mini secara efisien menyelesaikan berbagai kasus penggunaan pemahaman teks perusahaan.
Jamba 1.5 Mini ideal untuk alur kerja perusahaan dengan tugas yang memproses banyak data dan memerlukan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan tanggapan yang akurat dan menyeluruh, seperti meringkas dokumen yang panjang atau memungkinkan menjawab pertanyaan di seluruh pengetahuan organisasi yang luas saat ini. Jamba 1.5 Mini memiliki keseimbangan yang baik dalam hal kualitas, throughput, dan jarang diakses untuk mengurangi biaya penyimpanan.
Buka kartu model Jamba 1.5 MiniJamba 1,5 Besar
Jamba 1.5 Large dari AI21 Labs adalah model dasar yang arsitektur hybrid yang memanfaatkan arsitektur Mamba dan Transformer arsitektur untuk mencapai kualitas terbaik dengan harga yang kompetitif.
Dengan arsitektur hybrid SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Large secara efisien menyelesaikan berbagai pembuatan dan kasus penggunaan pemahaman teks perusahaan. Jamba 1.5 Large memiliki 94 B parameter aktif dan total parameter 398 B yang menghasilkan akurasi tinggi dalam yang dihasilkan.
Jamba 1.5 Large sangat ideal untuk alur kerja perusahaan dengan tugas yang memproses banyak data dan membutuhkan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan tanggapan yang akurat dan menyeluruh, seperti meringkas dokumen yang panjang atau memungkinkan menjawab pertanyaan di seluruh pengetahuan organisasi yang luas saat ini. Jamba 1.5 Large dirancang untuk respons berkualitas unggul, throughput transaksi, dan harga yang kompetitif dengan model lain di kelas ukurannya.
Buka kartu model Jamba 1.5 LargeMenggunakan model AI21 Labs
Saat Anda mengirim permintaan untuk menggunakan model AI21 Labs, gunakan model berikut nama:
- Untuk Jamba 1.5 Mini, gunakan
jamba-1.5-mini@001
. - Untuk Jamba 1.5 Large, gunakan
jamba-1.5-large@001
.
Sebaiknya gunakan versi model yang menyertakan akhiran yang
dimulai dengan simbol @
karena kemungkinan perbedaan antara
versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah
selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat
perubahan.
Sebelum memulai
Untuk menggunakan model AI21 Labs dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan agar dapat menggunakan
Vertex AI. Jika Anda sudah memiliki project dengan
Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat
project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
- Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:
Melakukan panggilan streaming ke model AI21 Labs
Contoh berikut melakukan panggilan streaming ke model AI21 Labs.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung AI21 Labs.
- MODEL: Nama model yang ingin Anda gunakan. Di beberapa
isi permintaan, kecualikan versi model
@
angka - ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah
kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan non-streaming ke model Lab AI21
Contoh berikut melakukan panggilan non-streaming ke model Lab AI21.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung AI21 Labs.
- MODEL: Nama model yang ingin Anda gunakan. Di beberapa
isi permintaan, kecualikan versi model
@
angka - ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah
kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan dan kuota region model AI21 Labs
Untuk model Lab AI21, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token masukan dan {i>output<i}.
Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model AI21 Labs tercantum dalam tabel berikut:
Jamba 1.5 Mini
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
50 QPM, 60.000 TPM | 256.000 token |
europe-west4 |
50 QPM, 60.000 TPM | 256.000 token |
Jamba 1,5 Besar
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
20 QPM, 20.000 TPM | 256.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.