Model Llama di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model Llama menggunakan API terkelola, tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.
Tidak ada tagihan selama periode Pratinjau. Jika Anda memerlukan siap produksi, gunakan model Llama yang dihosting sendiri.
Model Llama 3.1 yang tersedia
Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer. Versi yang di-tuning menggunakan supervised fine-tuning (SFT) dan reinforcement learning dengan masukan manusia (RLHF) untuk menyelaraskan diri dengan manusia preferensi atas kegunaan dan keamanan.
Model Llama berikut ini tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka Kartu model Model Garden.
Llama 3.1 405B
Llama 3.1 405B adalah model Meta yang paling kuat dan serbaguna untuk tanggal. Ini adalah model dasar terbesar yang tersedia secara terbuka, yang memberikan kemampuan mulai dari pembuatan data sintetis hingga distilasi model, kemampuan mengemudi, matematika, alat bahasa, terjemahan multibahasa, dan banyak lagi. Untuk informasi selengkapnya, lihat Situs Llama 3.1 dari Meta.
Llama 3.1 405B dioptimalkan untuk kasus penggunaan berikut:
- Aplikasi tingkat perusahaan
- Riset dan pengembangan
- Pembuatan data sintetis dan distilasi model
Menggunakan model Llama
Saat Anda mengirim permintaan untuk menggunakan model Llama, gunakan model berikut nama:
- Untuk Llama 3.1 405B, gunakan
llama3-405b-instruct-mass
.
Sebaiknya gunakan versi model yang menyertakan akhiran yang
dimulai dengan simbol @
karena kemungkinan perbedaan antara
versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah
selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat
perubahan.
Sebelum memulai
Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan agar dapat menggunakan
Vertex AI. Jika Anda sudah memiliki project dengan
Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat
project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
- Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:
Melakukan panggilan streaming ke model Llama
Contoh berikut melakukan panggilan streaming ke model Llama.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
- STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Membuat panggilan unary ke model Llama
Contoh berikut membuat panggilan unary ke model Llama.
REST
Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Wilayah yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
untuk membuat pesan email baru. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi denganuser
danassistant
belokan bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
- STREAM: Boolean yang menentukan
terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Contoh
Untuk melihat contoh penggunaan model Llama, jalankan notebook berikut:
Deskripsi | Buka di |
---|---|
Gunakan Llama Guard untuk melindungi input dan output LLM. |
Colab GitHub Vertex AI Workbench |
Evaluasi model Llama 3.1 menggunakan evaluasi Otomatis berdampingan (AutoSxS). |
Colab GitHub Vertex AI Workbench |
Ketersediaan dan kuota region model Llama
Untuk model Llama, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam Query per menit (QPM).
Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model Llama tercantum dalam tabel berikut:
Llama 3.1 405B
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM | 32.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.