Anda dapat melakukan streaming respons Claude untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk secara bertahap melakukan streaming yang dihasilkan.
Anda membayar model Claude saat menggunakannya (bayar sesuai penggunaan), atau membayar biaya tetap saat menggunakan throughput penyediaan. Untuk mengetahui harga bayar sesuai penggunaan, lihat Model Claude dari Anthropic dengan harga Vertex AI halaman kami.
Model Claude yang tersedia
Model berikut tersedia dari Anthropic untuk digunakan dalam Vertex AI. Untuk mengakses model Claude, buka kartu model Model Garden.
Claude 3.5 Sonnet
Claude 3.5 Sonnet dari Anthropic adalah model AI tercanggih dari Anthropic dan mempertahankan kecepatan serta biaya Claude 3 Sonnet, yang merupakan model tingkat menengah. Claude 3.5 Sonnet menunjukkan apa yang dapat dilakukan dengan AI generatif. Claude 3.5 Sonnet dioptimalkan untuk kasus penggunaan berikut:
Coding, seperti menulis, mengedit, dan menjalankan kode dengan kemampuan pemecahan masalah dan penalaran yang canggih.
Tangani kueri kompleks dari dukungan pelanggan dengan memahami konteks pengguna dan mengorkestrasi alur kerja multi-langkah.
{i>Data science<i} dan analisis dengan menavigasi data yang tidak terstruktur dan memanfaatkannya beberapa alat untuk menghasilkan wawasan.
Pemrosesan visual, seperti menafsirkan bagan dan grafik yang membutuhkan tidak dipahami oleh peserta.
Menulis konten dengan nada yang lebih alami dan mirip manusia.
Buka kartu model Claude 3.5 Sonnet
Claude 3 Opus
Claude 3 Opus Anthropic adalah model AI kedua tercanggih dari Anthropic, dengan performa yang kuat untuk menyelesaikan tugas yang sangat kompleks. Ia dapat menavigasi {i>prompt<i} terbuka dan skenario yang dapat dilihat dengan kefasihan dan pemahaman layaknya manusia. Claude 3 Opus dioptimalkan untuk kasus penggunaan berikut:
Otomatisasi tugas, seperti coding dan perencanaan interaktif, atau menjalankan tindakan kompleks di seluruh API dan database.
Tugas riset dan pengembangan, seperti peninjauan riset, bertukar pikiran, dan pembuatan hipotesis, serta pengujian produk.
Tugas strategi, seperti analisis lanjutan bagan dan grafik, keuangan dan tren pasar, dan perkiraan.
Tugas visi, seperti memproses gambar untuk menampilkan output teks. Selain itu, analisis bagan, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Claude 3 Opus
Claude 3 Haiku
Claude 3 Haiku dari Anthropic adalah model teks dan penglihatan tercepat dari Anthropic untuk respons instan terhadap kueri sederhana, yang dimaksudkan untuk memberikan pengalaman AI yang lancar meniru interaksi manusia. Claude 3 Haiku dioptimalkan untuk kasus penggunaan berikut:
Interaksi pelanggan dan terjemahan langsung.
Moderasi konten untuk mendeteksi perilaku atau permintaan pelanggan yang mencurigakan.
Tugas-tugas penghematan biaya, seperti pengelolaan inventaris dan ekstraksi pengetahuan dari data tidak terstruktur.
Tugas penglihatan, seperti memproses gambar untuk mengembalikan output teks, analisis bagan, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Haiku 3 Clude
Claude 3 Sonet
Claude 3 Sonnet dari Anthropic adalah kombinasi keterampilan dan kecepatan yang andal dari Anthropic. Model ini dirancang agar dapat diandalkan untuk deployment AI berskala besar di berbagai kasus penggunaan. Claude 3 Sonnet dioptimalkan untuk kasus penggunaan berikut:
Pemrosesan data, termasuk retrieval-augmented generation (RAG) dan pengambilan penelusuran.
Tugas penjualan, seperti rekomendasi produk, perkiraan, dan target pemasaran.
Tugas-tugas yang menghemat waktu, seperti pembuatan kode, kendali mutu, dan pengenalan karakter (OCR) dalam gambar.
Tugas visi, seperti memproses gambar untuk menampilkan output teks. Selain itu, analisis diagram, grafik, diagram teknis, laporan, dan konten visual lainnya.
Buka kartu model Claude 3 Sonnet
Menggunakan model Claude
Anda dapat menggunakan SDK Anthropic atau perintah curl untuk mengirim permintaan ke Endpoint Vertex AI menggunakan nama model berikut:
- Untuk Claude 3.5 Sonnet, gunakan
claude-3-5-sonnet@20240620
. - Untuk Claude 3 Opus, gunakan
claude-3-opus@20240229
. - Untuk Claude 3 Haiku, gunakan
claude-3-haiku@20240307
. - Untuk Claude 3 Sonnet, gunakan
claude-3-sonnet@20240229
.
Sebaiknya gunakan versi model Claude Anthropic yang menyertakan akhiran
yang dimulai dengan simbol @
(seperti claude-3-5-sonnet@20240620
atau
claude-3-haiku@20240307
) karena kemungkinan perbedaan di antara model
versi. Jika Anda tidak menentukan versi model, versi terbaru selalu
digunakan, yang dapat secara tidak sengaja
mempengaruhi alur kerja Anda saat versi model
perubahan.
Sebelum memulai
Untuk menggunakan model Claude dari Anthropic dengan Vertex AI, Anda harus melakukan
langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com
) harus
untuk menggunakan Vertex AI. Jika Anda sudah memiliki project dengan
Vertex AI API telah diaktifkan, Anda dapat menggunakan project tersebut daripada membuat
untuk membuat proyek baru.
Pastikan Anda memiliki izin yang diperlukan untuk mengaktifkan dan menggunakan model partner. Untuk mengetahui informasi selengkapnya, lihat Memberikan izin yang diperlukan.
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Vertex AI.
- Buka salah satu kartu model Model Garden berikut, lalu klik enable:
Menggunakan SDK Anthropic
Anda dapat membuat permintaan API ke model Claude Anthropic menggunakan Anthropic Claude SDK. Untuk mempelajari lebih lanjut, lihat hal berikut:
- Referensi API pesan Claude
- Library Python API milik Anthropic
- Library Vertex AI TypeScript API milik Anthropic
Melakukan panggilan streaming ke model Claude menggunakan Vertex SDK Anthropic
Contoh kode berikut menggunakan Vertex SDK Anthropic untuk melakukan streaming panggilan ke model Claude.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi Python API.
Melakukan panggilan unary ke model Claude menggunakan Vertex SDK Anthropic
Contoh kode berikut menggunakan Vertex SDK Anthropic untuk melakukan panggilan unary ke model Claude.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk informasi selengkapnya, lihat Dokumentasi referensi Python API.
Menggunakan perintah curl
Anda dapat menggunakan perintah curl untuk membuat permintaan ke endpoint Vertex AI. Perintah curl menentukan model Claude mana yang didukung yang ingin Anda gunakan.
Sebaiknya gunakan versi model Claude dari Anthropic yang menyertakan akhiran
yang dimulai dengan simbol @
(seperti claude-3-5-sonnet@20240620
atau
claude-3-haiku@20240307
) karena kemungkinan perbedaan antara versi
model. Jika Anda tidak menentukan versi model, versi terbaru selalu
digunakan, yang dapat secara tidak sengaja
mempengaruhi alur kerja Anda saat versi model
perubahan.
Topik berikut menunjukkan cara membuat perintah curl dan menyertakan contoh perintah curl.
REST
Untuk menguji prompt teks menggunakan Vertex AI API, kirim permintaan POST ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model Claude Anthropic.
Claude 3.5 Sonnet tersedia di region berikut:us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
- MODEL: Nama model yang ingin Anda gunakan.
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model Claude beroperasi dengan giliranuser
danassistant
bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan apakah respons
di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti teks,
user
atauassistant
pesan. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token adalah
kurang lebih 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
- TOP_P (Opsional): Top-P mengubah cara model memilih token untuk output. Token dipilih
dari yang paling mungkin (lihat top-K) hingga yang paling tidak mungkin sampai jumlah probabilitasnya
sama dengan nilai top-P. Misalnya, jika token A, B, dan C memiliki probabilitas 0,3, 0,2, dan 0,1 dengan nilai top-P adalah
0.5
, model akan memilih A atau B sebagai token berikutnya dengan menggunakan suhu dan mengecualikan C sebagai kandidat.Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
- TOP_K(Opsional): Top-K mengubah cara model memilih token untuk output. Top-K dari
1
berarti token yang dipilih berikutnya adalah yang paling mungkin di antara semua token dalam kosakata model (juga disebut decoding greedy), sedangkan nilai top-K dari3
berarti token berikutnya dipilih di antara tiga token yang paling mungkin menggunakan suhu.Untuk setiap langkah pemilihan token, token top-K dengan probabilitas tertinggi akan diambil sampelnya. Kemudian token akan difilter lebih lanjut berdasarkan top-P dengan token akhir yang dipilih menggunakan pengambilan sampel suhu.
Tentukan nilai yang lebih rendah untuk respons acak yang lebih sedikit dan nilai yang lebih tinggi untuk respons acak yang lebih banyak.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Contoh perintah curl
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Penggunaan alat (panggilan fungsi)
Model Claude dari Anthropic mendukung alat dan panggilan fungsi untuk meningkatkan kemampuan model. Untuk informasi selengkapnya, lihat Ringkasan penggunaan alat dalam dokumentasi Anthropic.
Contoh berikut menunjukkan cara menggunakan alat dengan memanfaatkan antarmuka SDK atau perintah curl. Contoh penelusuran untuk restoran terdekat di San Francisco yang saat ini terbuka.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk informasi selengkapnya, lihat Dokumentasi referensi Python API.
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model Claude Anthropic.
Claude 3.5 Sonnet tersedia di region berikut:us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
- MODEL: Nama model yang ingin Anda gunakan.
- Untuk Claude 3 Opus, gunakan
claude-3-opus@20240229
. - Untuk Claude 3 Sonnet, gunakan
claude-3-sonnet@20240229
. - Untuk Claude 3 Haiku, gunakan
claude-3-haiku@20240307
.
- Untuk Claude 3 Opus, gunakan
- ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model Claude beroperasi dengan giliranuser
danassistant
bergantian. Jika pesan terakhir menggunakan peranassistant
, maka respons konten berlanjut dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi
persepsi latensi penggunaan akhir. Tetapkan ke
true
untuk menstreaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah token maksimum yang dapat dibuat dalam respons. Token terdiri dari
sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk respons yang berpotensi lebih lama yang dihasilkan.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Isi JSON permintaan:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan wilayah Claude di Anthropic
Claude 3.5 Sonnet tersedia di wilayah berikut:
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
Kuota Claude dan panjang konteks yang didukung Anthropic
Untuk model Claude, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.
Batas kuota default dan panjang konteks yang didukung untuk Claude 3.5 Sonnet adalah:
Wilayah | Sistem kuota | Panjang konteks yang didukung |
---|---|---|
us-east5 (Ohio) |
Mendukung kuota bersama dinamis | 200.000 token |
asia-southeast1 (Singapore) |
Mendukung kuota bersama dinamis | 200.000 token |
europe-west1 (Belgium) |
Mendukung kuota bersama dinamis | 200.000 token |
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Opus adalah:
Wilayah | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-east5 (Ohio) |
Mendukung kuota bersama dinamis | 200.000 token |
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Haiku adalah:
Wilayah | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-east5 (Ohio) |
Mendukung kuota bersama dinamis | 200.000 token |
asia-southeast1 (Singapore) |
Mendukung kuota bersama dinamis | 200.000 token |
europe-west1 (Belgium) |
Mendukung kuota bersama dinamis | 200.000 token |
Batas kuota default dan panjang konteks yang didukung untuk Claude 3 Sonnet adalah:
Wilayah | Batas kuota default | Panjang konteks yang didukung |
---|---|---|
us-east5 (Ohio) |
Mendukung kuota bersama dinamis | 200.000 token |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.