Anda dapat melakukan streaming respons Claude Anda untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Anda akan membayar model Claude saat menggunakannya. Untuk mengetahui informasi selengkapnya, lihat bagian tentang model Anthropic Claude di halaman harga Vertex AI.
Model Anthropic Claude yang tersedia
Model berikut tersedia dari Anthropic untuk digunakan dalam Vertex AI. Untuk mengakses model Anthropic Claude 3, buka kartu model Model Garden-nya.
Opus Claude 3 (Pratinjau)
Anthropic Claude 3 Opus (Pratinjau) adalah model Anthropic yang paling mampu melakukan tugas kompleks dengan cepat. Hal ini dibuat untuk menavigasi perintah terbuka dan skenario baru.
Claude 3 Opus (Preview) dioptimalkan untuk kasus penggunaan berikut:
Otomatisasi tugas, seperti coding dan perencanaan interaktif, atau menjalankan tindakan kompleks di seluruh API dan database.
Tugas riset dan pengembangan, seperti tinjauan riset, bertukar pikiran dan membuat hipotesis, serta pengujian produk.
Tugas strategi, seperti analisis lanjutan diagram dan grafik, tren keuangan dan pasar, serta perkiraan.
Tugas visual, seperti memproses gambar untuk mengembalikan output teks. Juga, analisis bagan, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Claude 3 Opus
Claude 3 Soneta
Anthropic Claude 3 Sonnet memberikan keseimbangan antara kecerdasan dan kecepatan untuk workload perusahaan. Model ini adalah model daya tahan tinggi untuk AI berskala besar yang tersedia dengan harga yang kompetitif. Claude 3 Sonnet dioptimalkan untuk kasus penggunaan berikut:
Pemrosesan data, termasuk retrieval-augmented generate (RAG) dan pengambilan penelusuran.
Tugas-tugas penjualan, seperti rekomendasi produk, perkiraan, dan pemasaran yang ditargetkan.
Tugas yang menghemat waktu, seperti pembuatan kode, kendali mutu, dan pengenalan karakter optik (OCR) dalam gambar.
Tugas visual, seperti memproses gambar untuk mengembalikan output teks. Juga, analisis bagan, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Claude 3 Sonnet
Claude 3 Haiku
Claude 3 Haiku Anthropic adalah model tercepat dan paling ringkas yang tersedia dari Anthropic. Fitur ini dirancang untuk menjawab kueri dan permintaan dengan cepat. Anda dapat menggunakannya untuk membangun pengalaman AI yang meniru interaksi manusia. Claude 3 Haiku dioptimalkan untuk kasus penggunaan berikut:
Terjemahan dan interaksi pelanggan langsung.
Moderasi konten untuk mendeteksi perilaku yang mencurigakan atau permintaan pelanggan.
Tugas yang menghemat biaya, seperti pengelolaan inventaris dan ekstraksi pengetahuan dari data yang tidak terstruktur.
Tugas Vision, seperti memproses gambar untuk menampilkan output teks, analisis diagram, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Claude 3 Haiku
Menggunakan model Claude
Anda dapat menggunakan Anthropic SDK atau perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk Claude 3 Opus (Pratinjau), gunakan
claude-3-opus@20240229
. - Untuk Claude 3 Sonnet, gunakan
claude-3-sonnet@20240229
. - Untuk Claude 3 Haiku, gunakan
claude-3-haiku@20240307
.
Kami tidak merekomendasikan penggunaan versi model Anthropic Claude 3 yang tidak
menyertakan akhiran yang dimulai dengan simbol @
(claude-3-opus
,
claude-3-sonnet
, atau claude-3-haiku
).
Sebelum memulai
Untuk menggunakan model Anthropic Claude 3 dengan Vertex AI, Anda perlu melakukan
langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com
) harus
diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan
Vertex AI API aktif, Anda dapat menggunakan project tersebut, bukan membuat
project baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan model Anthropic Claude 3. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Enable the Vertex AI API.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Enable the Vertex AI API.
- Pastikan Anda memiliki izin untuk mengaktifkan model Anthropic Claude dan mengirim perintah. Untuk mengetahui informasi selengkapnya, lihat Menetapkan izin yang diperlukan untuk mengaktifkan model Claude dan mengirim perintah.
- Buka salah satu kartu model Model Garden berikut, lalu klik enable:
Menggunakan Anthropic SDK
Anda dapat membuat permintaan API ke model Anthropic Claude menggunakan Anthropic Claude SDK. Untuk mempelajari lebih lanjut, lihat referensi berikut:
Melakukan panggilan streaming ke model Claude 3 menggunakan Anthropic Vertex SDK
Contoh kode berikut menggunakan Anthropic Vertex SDK untuk melakukan panggilan streaming ke model Anthropic Claude 3.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Python API.
Melakukan panggilan unary ke model Claude 3 menggunakan Anthropic Vertex SDK
Contoh kode berikut menggunakan Anthropic Vertex SDK untuk melakukan panggilan unary ke model Anthropic Claude 3.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi Python API.
Menggunakan perintah curl
Anda dapat menggunakan perintah curl untuk membuat permintaan ke endpoint Vertex AI. Perintah curl menentukan model Anthropic Claude yang didukung yang ingin Anda gunakan:
- Untuk Claude 3 Opus (Pratinjau), gunakan
claude-3-opus@20240229
. - Untuk Claude 3 Sonnet, gunakan
claude-3-sonnet@20240229
. - untuk Claude 3 Haiku, gunakan
claude-3-haiku@20240307
.
Kami tidak merekomendasikan penggunaan versi model Anthropic Claude 3 yang tidak
menyertakan akhiran yang dimulai dengan simbol @
(claude-3-opus
,
claude-3-sonnet
, atau claude-3-haiku
).
Topik berikut ini menunjukkan cara membuat perintah curl dan menyertakan contoh perintah curl. Contoh perintah curl menggunakan model Claude 3 Sonnet.
REST
Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model Anthropic Claude.
Claude 3 Opus tersedia di region berikut:us-east5 (Ohio)
us-central1 (Iowa)
asia-southeast1 (Singapore)
us-central1 (Iowa)
europe-west4 (Netherlands)
- MODEL: Nama model yang ingin Anda gunakan.
- Untuk Claude 3 Opus, gunakan
claude-3-opus@20240229
. - Untuk Claude 3 Sonnet, gunakan
claude-3-sonnet@20240229
. - Untuk Claude 3 Haiku, gunakan
claude-3-haiku@20240307
.
- Untuk Claude 3 Opus, gunakan
- ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model Claude beroperasi dengan belokanuser
danassistant
alternatif. Jika pesan terakhir menggunakan peranassistant
, konten respons akan langsung berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakannya untuk membatasi bagian dari respons model. - STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten seperti teks, pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Panjang token adalah sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih pendek dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama.
- TOP_P (Opsional):
Top-P mengubah cara model memilih token untuk output. Token dipilih
dari yang paling mungkin (lihat top-K) hingga yang paling tidak mungkin sampai jumlah probabilitasnya
sama dengan nilai top-P. Misalnya, jika token A, B, dan C memiliki probabilitas 0,3, 0,2, dan 0,1 dengan nilai top-P adalah
0.5
, model akan memilih A atau B sebagai token berikutnya dengan menggunakan suhu dan mengecualikan C sebagai kandidat.Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
- TOP_K(Opsional):
Top-K mengubah cara model memilih token untuk output. Top-K dari
1
berarti token yang dipilih berikutnya adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut decoding greedy), sedangkan nilai top-K dari3
berarti token berikutnya dipilih di antara tiga token yang paling mungkin menggunakan suhu.Untuk setiap langkah pemilihan token, token top-K dengan probabilitas tertinggi akan diambil sampelnya. Kemudian token akan difilter lebih lanjut berdasarkan top-P dengan token akhir yang dipilih menggunakan pengambilan sampel suhu.
Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Contoh perintah curl
MODEL_ID="claude-3-sonnet@20240229"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Ketersediaan region Anthropic Claude
Claude 3 Opus tersedia di region berikut:
us-east5 (Ohio)
us-central1 (Iowa)
asia-southeast1 (Singapore)
us-central1 (Iowa)
europe-west4 (Netherlands)
Kuota Anthropic Claude dan panjang konteks yang didukung
Untuk model Claude 3, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan {i>output<i}.
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Opus (Pratinjau) adalah:
Region | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-east5 (Ohio) |
15 QPM, 50.000 TPM | 200.000 token |
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Sonnet adalah:
Region | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-central1 (Iowa) |
60 QPM, 50.000 TPM | 200.000 token |
asia-southeast1 (Singapore) |
60 QPM, 50.000 TPM | 200.000 token |
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Haiku adalah:
Region | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-central1 (Iowa) |
60 QPM, 50.000 TPM | 200.000 token |
europe-west4 (Netherlands) |
60 QPM, 50.000 TPM | 200.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Mengelola kuota.
Setel izin yang diperlukan untuk mengaktifkan model Claude dan mengirim perintah
Agar pengguna dapat mengaktifkan model Anthropic Claude, administrator harus memberikan peran Consumer Procurement Entitlement Manager Identity and Access Management (IAM). Setiap pengguna yang diberi peran ini dapat mengaktifkan model Anthropic Claude di Model Garden.
Agar pengguna dapat membuat permintaan perintah dari Vertex AI, administrator harus memberikan izin aiplatform.endpoints.predict
kepada pengguna tersebut. Izin ini disertakan dalam peran IAM
Pengguna Vertex AI. Untuk mengetahui informasi selengkapnya, lihat Vertex AI
User dan Access
control.
Konsol
Untuk memberikan peran IAM Pengelola Hak Pengadaan Konsumen kepada pengguna, buka halaman IAM.
Di kolom Principal, cari akun utama pengguna yang aksesnya ingin Anda aktifkan untuk model Anthropic Claude, lalu klik Edit principal di baris tersebut.
Di panel Edit access, klik
Add another role.Di bagian Pilih peran, pilih Pengelola Hak Pengadaan Konsumen.
Di panel Edit access, klik
Add another role.Di Select a role, pilih Vertex AI User.
Klik Save.
gcloud
-
Di konsol Google Cloud, aktifkan Cloud Shell.
Memberikan peran Consumer Procurement Entitlement Manager yang diperlukan untuk mengaktifkan model Anthropic Claude di Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Berikan peran Vertex AI User yang mencakup izin
aiplatform.endpoints.predict
yang diperlukan untuk membuat permintaan perintah:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Ganti
PRINCIPAL
dengan ID untuk akun utama. ID berbentukuser|group|serviceAccount:email
ataudomain:domain
—misalnya,user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
, ataudomain:example.domain.com
.Output-nya adalah daftar binding kebijakan yang mencakup hal berikut:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Untuk mengetahui informasi selengkapnya, lihat Memberikan satu peran dan
gcloud projects add-iam-policy-binding
.