Model AI21 Labs

Model AI21 Labs di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model AI21 Labs di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model Lab AI21 menggunakan API terkelola, sehingga tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.

Anda membayar untuk model AI21 Labs saat Anda menggunakannya (bayar sesuai penggunaan). Sebagai harga bayar sesuai penggunaan, lihat harga model AI21 Labs di Harga Vertex AI halaman.

Model Lab AI21 yang tersedia

Model berikut tersedia dari AI21 Labs untuk digunakan dalam Vertex AI. Untuk mengakses model AI21 Labs, buka Kartu model Model Garden.

Jamba 1.5 Mini

Jamba 1.5 Mini dari AI21 Labs adalah model dasar kecil yang arsitektur hybrid yang memanfaatkan arsitektur Mamba dan Transformer arsitektur untuk mencapai kualitas terbaik dengan harga yang kompetitif.

Dengan arsitektur hybrid SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Mini secara efisien menyelesaikan berbagai kasus penggunaan pemahaman teks perusahaan.

Jamba 1.5 Mini ideal untuk alur kerja perusahaan dengan tugas yang memproses banyak data dan memerlukan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan tanggapan yang akurat dan menyeluruh, seperti meringkas dokumen yang panjang atau memungkinkan menjawab pertanyaan di seluruh pengetahuan organisasi yang luas saat ini. Jamba 1.5 Mini memiliki keseimbangan yang baik dalam hal kualitas, throughput, dan jarang diakses untuk mengurangi biaya penyimpanan.

Buka kartu model Jamba 1.5 Mini

Jamba 1,5 Besar

Jamba 1.5 Large dari AI21 Labs adalah model dasar yang arsitektur hybrid yang memanfaatkan arsitektur Mamba dan Transformer arsitektur untuk mencapai kualitas terbaik dengan harga yang kompetitif.

Dengan arsitektur hybrid SSM-Transformer dan jendela konteks 256.000, Jamba 1.5 Large secara efisien menyelesaikan berbagai pembuatan dan kasus penggunaan pemahaman teks perusahaan. Jamba 1.5 Large memiliki 94 B parameter aktif dan total parameter 398 B yang menghasilkan akurasi tinggi dalam yang dihasilkan.

Jamba 1.5 Large sangat ideal untuk alur kerja perusahaan dengan tugas yang memproses banyak data dan membutuhkan model yang dapat menyerap informasi dalam jumlah besar untuk menghasilkan tanggapan yang akurat dan menyeluruh, seperti meringkas dokumen yang panjang atau memungkinkan menjawab pertanyaan di seluruh pengetahuan organisasi yang luas saat ini. Jamba 1.5 Large dirancang untuk respons berkualitas unggul, throughput transaksi, dan harga yang kompetitif dengan model lain di kelas ukurannya.

Buka kartu model Jamba 1.5 Large

Menggunakan model AI21 Labs

Saat Anda mengirim permintaan untuk menggunakan model AI21 Labs, gunakan model berikut nama:

  • Untuk Jamba 1.5 Mini, gunakan jamba-1.5-mini@001.
  • Untuk Jamba 1.5 Large, gunakan jamba-1.5-large@001.

Sebaiknya gunakan versi model yang menyertakan akhiran yang dimulai dengan simbol @ karena kemungkinan perbedaan antara versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat perubahan.

Sebelum memulai

Untuk menggunakan model AI21 Labs dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan agar dapat menggunakan Vertex AI. Jika Anda sudah memiliki project dengan Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat project baru.

Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Vertex AI.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API Vertex AI.

    Mengaktifkan API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:

Melakukan panggilan streaming ke model AI21 Labs

Contoh berikut melakukan panggilan streaming ke model AI21 Labs.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung AI21 Labs.
  • MODEL: Nama model yang ingin Anda gunakan. Di beberapa isi permintaan, kecualikan versi model @ angka
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

Isi JSON permintaan:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Melakukan panggilan non-streaming ke model Lab AI21

Contoh berikut melakukan panggilan non-streaming ke model Lab AI21.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung AI21 Labs.
  • MODEL: Nama model yang ingin Anda gunakan. Di beberapa isi permintaan, kecualikan versi model @ angka
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Isi JSON permintaan:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Ketersediaan dan kuota region model AI21 Labs

Untuk model Lab AI21, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token masukan dan {i>output<i}.

Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model AI21 Labs tercantum dalam tabel berikut:

Jamba 1.5 Mini

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 50 QPM, 60.000 TPM 256.000 token
europe-west4 50 QPM, 60.000 TPM 256.000 token

Jamba 1,5 Besar

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 20 QPM, 20.000 TPM 256.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.