Model Llama


Model Llama di Vertex AI menawarkan model serverless dan terkelola sepenuhnya model sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim membuat permintaan langsung ke endpoint Vertex AI API. Karena Model Llama menggunakan API terkelola, tidak perlu menyediakan atau dan mengelola infrastruktur.

Anda dapat men-streaming respons untuk mengurangi persepsi latensi pengguna akhir. J yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.

Tidak ada tagihan selama periode Pratinjau. Jika Anda memerlukan siap produksi, gunakan model Llama yang dihosting sendiri.

Model Llama 3.1 yang tersedia

Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur transformer. Versi yang di-tuning menggunakan supervised fine-tuning (SFT) dan reinforcement learning dengan masukan manusia (RLHF) untuk menyelaraskan diri dengan manusia preferensi atas kegunaan dan keamanan.

Model Llama berikut ini tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka Kartu model Model Garden.

Llama 3.1 405B

Llama 3.1 405B adalah model Meta yang paling kuat dan serbaguna untuk tanggal. Ini adalah model dasar terbesar yang tersedia secara terbuka, yang memberikan kemampuan mulai dari pembuatan data sintetis hingga distilasi model, kemampuan mengemudi, matematika, alat bahasa, terjemahan multibahasa, dan banyak lagi. Untuk informasi selengkapnya, lihat Situs Llama 3.1 dari Meta.

Llama 3.1 405B dioptimalkan untuk kasus penggunaan berikut:

  • Aplikasi tingkat perusahaan
  • Riset dan pengembangan
  • Pembuatan data sintetis dan distilasi model
Buka kartu model Llama 3.1 405B

Menggunakan model Llama

Saat Anda mengirim permintaan untuk menggunakan model Llama, gunakan model berikut nama:

  • Untuk Llama 3.1 405B, gunakan llama3-405b-instruct-mass.

Sebaiknya gunakan versi model yang menyertakan akhiran yang dimulai dengan simbol @ karena kemungkinan perbedaan antara versi model. Jika Anda tidak menentukan versi model, versi terbaru adalah selalu digunakan, yang secara tidak sengaja dapat memengaruhi alur kerja Anda saat perubahan.

Sebelum memulai

Untuk menggunakan model Llama dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan agar dapat menggunakan Vertex AI. Jika Anda sudah memiliki project dengan Dengan Vertex AI API, Anda dapat menggunakan project tersebut daripada membuat project baru.

Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan partner jaringan. Untuk informasi selengkapnya, lihat Berikan izin yang diperlukan.

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Vertex AI API.

    Enable the API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the Vertex AI API.

    Enable the API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik aktifkan:

Melakukan panggilan streaming ke model Llama

Contoh berikut melakukan panggilan streaming ke model Llama.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung model Llama.
  • MODEL: Nama model yang ingin Anda gunakan.
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Membuat panggilan unary ke model Llama

Contoh berikut membuat panggilan unary ke model Llama.

REST

Setelah Anda menyiapkan lingkungan Anda, Anda dapat menggunakan REST untuk menguji prompt teks. Contoh berikut mengirim permintaan ke penayang endpoint model Google Cloud.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • LOCATION: Wilayah yang mendukung model Llama.
  • MODEL: Nama model yang ingin Anda gunakan.
  • ROLE: Peran yang terkait dengan untuk membuat pesan email baru. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan user dan assistant belokan bergantian. Jika pesan terakhir menggunakan peran assistant, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
  • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
  • MAX_OUTPUT_TOKENS: Jumlah token maksimum yang dapat dibuat dalam respons. Token terdiri dari sekitar empat karakter. 100 token setara dengan sekitar 60-80 kata.

    Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.

  • STREAM: Boolean yang menentukan terlepas dari apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke true untuk menstreaming respons dan false untuk menampilkan respons sekaligus.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

Isi JSON permintaan:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false
}

Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

curl

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

Anda akan melihat respons JSON yang mirip seperti berikut:

Contoh

Untuk melihat contoh penggunaan model Llama, jalankan notebook berikut:

Deskripsi Buka di
Gunakan Llama Guard untuk melindungi input dan output LLM. Colab
GitHub
Vertex AI Workbench
Evaluasi model Llama 3.1 menggunakan evaluasi Otomatis berdampingan (AutoSxS). Colab
GitHub
Vertex AI Workbench

Ketersediaan dan kuota region model Llama

Untuk model Llama, kuota berlaku untuk setiap region tempat model tersebut berada yang tersedia. Kuota ditentukan dalam Query per menit (QPM).

Region yang didukung, kuota default, dan panjang konteks maksimum untuk setiap region Model Llama tercantum dalam tabel berikut:

Llama 3.1 405B

Wilayah Sistem kuota Panjang konteks yang didukung
us-central1 15 QPM 32.000 token

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.