Model Llama di Vertex AI menawarkan model terkelola sepenuhnya dan serverless sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Model Llama yang tersedia
Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden.
Llama 3.2
Llama 3.2 memungkinkan developer mem-build dan men-deploy model AI generatif terbaru dan aplikasi yang menggunakan kemampuan Llama terbaru, seperti penalaran gambar. Llama 3.2 juga didesain agar lebih mudah diakses untuk aplikasi di perangkat.
Buka kartu model Llama 3.2Tidak ada biaya yang dikenakan selama periode Pratinjau. Jika Anda memerlukan layanan siap produksi, gunakan model Llama yang dihosting sendiri.
Pertimbangan
Saat menggunakan llama-3.2-90b-vision-instruct-maas
, tidak ada batasan saat Anda mengirim perintah
hanya teks. Namun, jika Anda menyertakan gambar dalam perintah, gambar
harus berada di awal perintah, dan Anda hanya dapat menyertakan satu gambar. Anda
tidak dapat, misalnya, menyertakan beberapa teks, lalu gambar.
Llama 3.1
Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer yang dioptimalkan. Versi yang disesuaikan menggunakan penyesuaian terperinci yang diawasi (SFT) dan reinforcement learning dengan masukan manusia (RLHF) agar selaras dengan preferensi manusia untuk membantu dan menjaga keamanan.
Llama 3.1 405B Tersedia Umum. Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.
Model Llama 3.1 lainnya masih dalam Pratinjau. Tidak ada biaya untuk model Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.
Buka kartu model Llama 3.1Menggunakan model Llama
Saat Anda mengirim permintaan untuk menggunakan model Llama, gunakan nama model berikut:
- Untuk Llama 3.2 90B (Pratinjau), gunakan
llama-3.2-90b-vision-instruct-maas
. - Untuk Llama 3.1 405B (GA), gunakan
llama-3.1-405b-instruct-maas
. - Untuk Llama 3.1 70B (Pratinjau), gunakan
llama-3.1-70b-instruct-maas
. - Untuk Llama 3.1 8B (Pratinjau), gunakan
llama-3.1-8b-instruct-maas
.
Sebaiknya gunakan versi model yang menyertakan akhiran yang
dimulai dengan simbol @
karena kemungkinan perbedaan antara
versi model. Jika Anda tidak menentukan versi model, versi terbaru akan selalu digunakan, yang dapat secara tidak sengaja memengaruhi alur kerja Anda saat versi model berubah.
Sebelum memulai
Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan untuk menggunakan
Vertex AI. Jika sudah memiliki project dengan
Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan
membuat project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan model partner. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Buka salah satu kartu model Model Garden berikut, lalu klik enable:
Melakukan panggilan streaming ke model Llama
Contoh berikut melakukan panggilan streaming ke model Llama.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan akhir menggunakan peranassistant
, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.
- STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah akan mengaktifkan Llama Guard pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan unary ke model Llama
Contoh berikut membuat panggilan unary ke model Llama.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model Llama.
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan akhir menggunakan peranassistant
, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.
- STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah akan mengaktifkan Llama Guard pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
Isi JSON permintaan:
{ "model": "meta/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false, "extra_body": { "google": { "model_safety_settings": { "enabled": ENABLE_LLAMA_GUARD, "llama_guard_settings": {} } } } }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Respons yang ditandai
Secara default, Llama Guard diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.1. Llama Guard membantu melindungi respons dengan memeriksa input dan output. Jika Llama Guard menentukan bahwa respons tersebut tidak aman, respons tersebut akan ditandai.
Jika Anda ingin menonaktifkan Llama Guard, ubah setelan keamanan model. Untuk mengetahui informasi
selengkapnya, lihat kolom model_safety_settings
dalam
contoh streaming atau unary.
Menggunakan Vertex AI Studio
Untuk model Llama, Anda dapat menggunakan Vertex AI Studio untuk membuat prototipe dan menguji model AI generatif dengan cepat di konsol Google Cloud. Misalnya, Anda dapat menggunakan Vertex AI Studio untuk membandingkan respons model Llama dengan model lain yang didukung seperti Gemini Google.
Untuk mengetahui informasi selengkapnya, lihat Panduan memulai: Mengirim perintah teks ke Gemini menggunakan Vertex AI Studio.
Ketersediaan dan kuota wilayah model Llama
Untuk model Llama, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).
Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap model Llama tercantum dalam tabel berikut:
Llama 3.2 90B (Pratinjau)
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
30 QPM | 128.000 token |
Llama 3.1 405B (GA)
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM | 128.000 token |
Llama 3.1 70B (Pratinjau)
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM | 128.000 token |
Llama 3.1 8B (Pratinjau)
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-central1 |
60 QPM | 128.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.