Model Llama


Model Llama di Vertex AI menawarkan model terkelola sepenuhnya dan serverless sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Model Llama yang tersedia

Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden.

Llama 3.2

Llama 3.2 memungkinkan developer mem-build dan men-deploy model AI generatif terbaru dan aplikasi yang menggunakan kemampuan Llama terbaru, seperti penalaran gambar. Llama 3.2 juga didesain agar lebih mudah diakses untuk aplikasi di perangkat.

Buka kartu model Llama 3.2

Tidak ada biaya yang dikenakan selama periode Pratinjau. Jika Anda memerlukan layanan siap produksi, gunakan model Llama yang dihosting sendiri.

Pertimbangan

Saat menggunakan llama-3.2-90b-vision-instruct-maas, tidak ada batasan saat Anda mengirim perintah hanya teks. Namun, jika Anda menyertakan gambar dalam perintah, gambar harus berada di awal perintah, dan Anda hanya dapat menyertakan satu gambar. Anda tidak dapat, misalnya, menyertakan beberapa teks, lalu gambar.

Llama 3.1

Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer yang dioptimalkan. Versi yang disesuaikan menggunakan penyesuaian terperinci yang diawasi (SFT) dan reinforcement learning dengan masukan manusia (RLHF) agar selaras dengan preferensi manusia untuk membantu dan menjaga keamanan.

Llama 3.1 405B Tersedia Umum. Anda akan ditagih saat menggunakan model (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Llama di halaman harga Vertex AI.

Model Llama 3.1 lainnya masih dalam Pratinjau. Tidak ada biaya untuk model Pratinjau. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang dihosting sendiri.

Buka kartu model Llama 3.1

Menggunakan model Llama

Saat Anda mengirim permintaan untuk menggunakan model Llama, gunakan nama model berikut:

  • Untuk Llama 3.2 90B (Pratinjau), gunakan llama-3.2-90b-vision-instruct-maas.
  • Untuk Llama 3.1 405B (GA), gunakan llama-3.1-405b-instruct-maas.
  • Untuk Llama 3.1 70B (Pratinjau), gunakan llama-3.1-70b-instruct-maas.
  • Untuk Llama 3.1 8B (Pratinjau), gunakan llama-3.1-8b-instruct-maas.

Sebaiknya gunakan versi model yang menyertakan akhiran yang dimulai dengan simbol @ karena kemungkinan perbedaan antara versi model. Jika Anda tidak menentukan versi model, versi terbaru akan selalu digunakan, yang dapat secara tidak sengaja memengaruhi alur kerja Anda saat versi model berubah.

Sebelum memulai

Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan model partner. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Vertex AI.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API Vertex AI.

    Mengaktifkan API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik enable:

Melakukan panggilan streaming ke model Llama

Contoh berikut melakukan panggilan streaming ke model Llama.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Region yang mendukung model Llama.
  • MODEL: Nama model yang ingin Anda gunakan.
  • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan akhir menggunakan peran assistant, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.

  • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
  • ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah akan mengaktifkan Llama Guard pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Melakukan panggilan unary ke model Llama

Contoh berikut membuat panggilan unary ke model Llama.

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirimkan permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Region yang mendukung model Llama.
  • MODEL: Nama model yang ingin Anda gunakan.
  • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan akhir menggunakan peran assistant, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian respons model.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih panjang.

  • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
  • ENABLE_LLAMA_GUARD: Boolean yang menentukan apakah akan mengaktifkan Llama Guard pada input dan output Anda. Secara default, Llama Guard diaktifkan dan menandai respons jika menentukan bahwa respons tersebut tidak aman.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Respons yang ditandai

Secara default, Llama Guard diaktifkan pada semua prediksi yang Anda buat dengan model Llama 3.1. Llama Guard membantu melindungi respons dengan memeriksa input dan output. Jika Llama Guard menentukan bahwa respons tersebut tidak aman, respons tersebut akan ditandai.

Jika Anda ingin menonaktifkan Llama Guard, ubah setelan keamanan model. Untuk mengetahui informasi selengkapnya, lihat kolom model_safety_settings dalam contoh streaming atau unary.

Menggunakan Vertex AI Studio

Untuk model Llama, Anda dapat menggunakan Vertex AI Studio untuk membuat prototipe dan menguji model AI generatif dengan cepat di konsol Google Cloud. Misalnya, Anda dapat menggunakan Vertex AI Studio untuk membandingkan respons model Llama dengan model lain yang didukung seperti Gemini Google.

Untuk mengetahui informasi selengkapnya, lihat Panduan memulai: Mengirim perintah teks ke Gemini menggunakan Vertex AI Studio.

Ketersediaan dan kuota wilayah model Llama

Untuk model Llama, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM).

Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap model Llama tercantum dalam tabel berikut:

Llama 3.2 90B (Pratinjau)

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 30 QPM 128.000 token

Llama 3.1 405B (GA)

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM 128.000 token

Llama 3.1 70B (Pratinjau)

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM 128.000 token

Llama 3.1 8B (Pratinjau)

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 60 QPM 128.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.