Dokumen ini memberikan arsitektur referensi untuk membantu Anda mendesain sistem AI multi-agen yang andal di Google Cloud. Sistem AI multi-agen mengoptimalkan proses yang kompleks dan dinamis dengan menyegmentasikannya menjadi tugas-tugas terpisah yang dijalankan secara kolaboratif oleh beberapa agen AI khusus.
Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator yang membangun dan mengelola infrastruktur dan aplikasi AI di cloud. Dokumen ini mengasumsikan pemahaman dasar tentang agen dan model AI. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan membuat kode agen AI.
Arsitektur
Diagram berikut menunjukkan arsitektur untuk contoh sistem AI multi-agen yang di-deploy di Google Cloud.
Komponen arsitektur
Contoh arsitektur di bagian sebelumnya berisi komponen berikut:
Komponen | Deskripsi |
---|---|
Frontend | Pengguna berinteraksi dengan sistem multi-agen melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run tanpa server. |
Agen | Agen koordinator mengontrol sistem AI agentik dalam contoh ini. Agen koordinator memanggil subagen yang sesuai untuk memicu alur agen. Agen dapat berkomunikasi satu sama lain menggunakan protokol Agent2Agent (A2A), yang memungkinkan interoperabilitas antar-agen terlepas dari bahasa pemrograman dan runtime-nya. Contoh arsitektur menunjukkan pola berurutan dan pola penyempurnaan iteratif. Untuk mengetahui informasi selengkapnya tentang sub-agen dalam contoh ini, lihat bagian Alur agen. |
Runtime agen | Agen AI dapat di-deploy sebagai layanan Cloud Run serverless, sebagai aplikasi dalam container di Google Kubernetes Engine (GKE), atau di Vertex AI Agent Engine. |
ADK | Agent Development Kit (ADK) menyediakan alat dan framework untuk mengembangkan, menguji, dan men-deploy agen. ADK mengabstraksi kompleksitas pembuatan agen dan memungkinkan developer AI berfokus pada logika dan kemampuan agen. |
Model AI dan runtime model | Untuk penayangan inferensi, agen dalam arsitektur contoh ini menggunakan model AI di Vertex AI. Arsitektur ini menunjukkan Cloud Run dan GKE sebagai runtime alternatif untuk model AI yang Anda pilih untuk digunakan. |
Model Armor | Model Armor memungkinkan inspeksi dan sanitasi input dan respons untuk model yang di-deploy di Vertex AI dan GKE. Untuk mengetahui informasi selengkapnya, lihat Integrasi Model Armor dengan layanan Google Cloud . |
Klien, server, dan alat MCP | Model Context Protocol (MCP) memfasilitasi akses ke alat dengan menstandardisasi interaksi antara agen dan alat. Untuk setiap pasangan agen-alat, klien MCP mengirimkan permintaan ke server MCP yang digunakan agen untuk mengakses alat seperti database, sistem file, atau API. |
Alur agentic
Contoh sistem multi-agen dalam arsitektur sebelumnya memiliki alur berikut:
- Pengguna memasukkan perintah melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run serverless.
- Frontend meneruskan perintah ke agen koordinator.
Agen koordinator memulai salah satu alur kerja agen berikut berdasarkan maksud yang dinyatakan dalam perintah.
- Berurutan (Sequential):
- Tugas - Subagen melakukan tugas.
- Subagen tugas-A memanggil subagen tugas-A.1.
Penyempurnaan iteratif:
- Subagen tugas-B melakukan tugas.
- Subagen evaluator kualitas meninjau output subagen tugas-B.
- Jika output tidak memuaskan, evaluator kualitas akan memanggil subagen peningkat kualitas perintah untuk menyempurnakan perintah.
- Subagen tugas-B melakukan tugasnya lagi dengan menggunakan perintah yang ditingkatkan.
Siklus ini berlanjut hingga output memuaskan atau jumlah iterasi maksimum tercapai.
Arsitektur contoh mencakup jalur human-in-the-loop untuk memungkinkan pengguna manusia melakukan intervensi dalam alur agentik jika diperlukan.
- Berurutan (Sequential):
Subagen tugas-A.1 dan subagen evaluator kualitas memanggil subagen pembuat respons secara independen.
Subagen pembuat respons menghasilkan respons, melakukan validasi, dan pemeriksaan perujukan, lalu mengirimkan respons akhir kepada pengguna melalui agen koordinator.
Produk dan alat yang digunakan
Arsitektur referensi ini menggunakan produk dan alat pihak ketiga berikut: Google Cloud
- Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
- Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
- Google Kubernetes Engine (GKE): Layanan Kubernetes yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google.
- Model Armor: Layanan yang memberikan perlindungan untuk resource AI generatif dan agentic Anda terhadap injeksi perintah, kebocoran data sensitif, dan konten berbahaya.
- Agent Development Kit (ADK): Kumpulan alat dan library untuk mengembangkan, menguji, dan men-deploy agen AI.
- Protokol Agent2Agent (A2A): Protokol terbuka yang memungkinkan komunikasi dan interoperabilitas antar-agen, terlepas dari bahasa pemrograman dan runtime-nya.
- Model Context Protocol (MCP): Standar open source untuk menghubungkan aplikasi AI ke sistem eksternal.
Kasus penggunaan
Sistem AI multi-agen cocok untuk kasus penggunaan kompleks yang memerlukan kolaborasi dan koordinasi di berbagai rangkaian keahlian khusus untuk mencapai tujuan bisnis. Untuk mengidentifikasi kasus penggunaan yang cocok untuk sistem AI multi-agen, analisis proses bisnis Anda dan identifikasi tugas tertentu yang dapat ditingkatkan oleh AI. Berfokus pada hasil bisnis yang nyata, seperti pengurangan biaya dan pemrosesan yang lebih cepat. Pendekatan ini membantu menyelaraskan investasi Anda dalam AI dengan nilai bisnis.
Berikut adalah contoh kasus penggunaan untuk sistem AI multi-agen.
Penasihat keuangan
Memberikan rekomendasi perdagangan saham yang dipersonalisasi dan mengeksekusi perdagangan. Diagram berikut menunjukkan contoh alur berbasis agen untuk kasus penggunaan ini. Contoh ini menggunakan pola berurutan.
Diagram menunjukkan alur berikut:
- Agen pengambil data mengambil harga saham real-time dan historis, laporan keuangan perusahaan, dan data relevan lainnya dari sumber tepercaya.
- Agen penganalisis keuangan menerapkan teknik analisis dan pembuatan diagram yang sesuai pada data, mengidentifikasi pola pergerakan harga, dan membuat prediksi.
- Agen pemberi rekomendasi saham menggunakan analisis dan diagram untuk membuat rekomendasi yang dipersonalisasi untuk membeli dan menjual saham tertentu berdasarkan profil risiko dan tujuan investasi pengguna.
- Agen eksekutor perdagangan membeli dan menjual saham atas nama pengguna.
Asisten riset
Buat rencana riset, kumpulkan informasi, evaluasi dan sempurnakan riset, lalu susun laporan. Diagram berikut menunjukkan contoh alur agentik untuk kasus penggunaan ini. Alur utama dalam contoh ini menggunakan pola berurutan. Contoh ini juga mencakup pola penyempurnaan iteratif.
Diagram menunjukkan alur berikut:
- Agen perencana membuat rencana penelitian yang mendetail.
Agen peneliti menyelesaikan tugas berikut:
- Menggunakan rencana riset untuk mengidentifikasi sumber data internal dan eksternal yang sesuai.
- Mengumpulkan dan menganalisis data yang diperlukan.
- Menyiapkan ringkasan penelitian dan memberikan ringkasan tersebut kepada agen pengevaluasi.
Agen peneliti mengulangi tugas ini hingga agen evaluator menyetujui penelitian.
Agen pembuat laporan akan membuat laporan penelitian akhir.
Pengoptimal supply chain
Mengoptimalkan inventaris, melacak pengiriman, dan berkomunikasi dengan partner supply chain. Diagram berikut menunjukkan contoh alur berbasis agen untuk kasus penggunaan ini. Contoh ini menggunakan pola berurutan.
Agen pengelola gudang memastikan tingkat stok yang optimal dengan membuat pesanan pengisian ulang berdasarkan inventaris, perkiraan permintaan, dan waktu tunggu pemasok.
- Agen berinteraksi dengan agen pelacak pengiriman untuk melacak pengiriman.
- Agen berinteraksi dengan agen komunikator pemasok untuk memberi tahu pemasok tentang perubahan pesanan.
Agen pelacak pengiriman memastikan pemenuhan pesanan yang tepat waktu dan efisien dengan berintegrasi dengan platform logistik pemasok dan sistem ekspedisi.
Agen komunikator pemasok berkomunikasi dengan pemasok eksternal atas nama agen lain dalam sistem.
Pertimbangan desain
Bagian ini menjelaskan faktor desain, praktik terbaik, dan rekomendasi yang perlu dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mengembangkan topologi yang memenuhi persyaratan spesifik Anda terkait keamanan, keandalan, biaya, dan performa.
Panduan di bagian ini tidak lengkap. Bergantung pada persyaratan beban kerja Anda dan produk serta fitur pihak ketiga yang Anda gunakan, mungkin ada faktor desain dan pertimbangan tambahan yang harus Anda pertimbangkan. Google Cloud
Desain sistem
Bagian ini memberikan panduan untuk membantu Anda memilih Google Cloud region untuk deployment dan memilih Google Cloud produk dan alat yang sesuai.
Pemilihan wilayah
Saat memilih Google Cloud region untuk aplikasi AI Anda, pertimbangkan faktor-faktor berikut:
- Ketersediaan layanan Google Cloud di setiap region.
- Persyaratan latensi pengguna akhir.
- Biaya sumber Google Cloud daya.
- Persyaratan peraturan.
Untuk memilih lokasi Google Cloud yang sesuai untuk aplikasi Anda, gunakan alat berikut:
- Google Cloud Pemilih Region: Alat berbasis web interaktif untuk memilih region Google Cloud yang optimal untuk aplikasi dan data Anda berdasarkan faktor-faktor seperti jejak karbon, biaya, dan latensi.
- Cloud Location Finder API: API publik yang menyediakan cara terprogram untuk menemukan lokasi deployment di Google Cloud, Google Distributed Cloud, dan penyedia cloud lainnya.
Desain agen
Bagian ini memberikan rekomendasi umum untuk mendesain agen AI. Panduan mendetail tentang penulisan kode dan logika agen berada di luar cakupan dokumen ini.
Fokus desain | Rekomendasi |
---|---|
Definisi dan desain agen |
|
Interaksi agen |
|
Konteks, alat, dan data |
|
Keamanan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan keamanan workload Anda.
Komponen | Pertimbangan dan rekomendasi desain |
---|---|
Agen |
Agen AI menimbulkan risiko keamanan unik dan kritis tertentu yang mungkin tidak dapat dimitigasi secara memadai oleh praktik keamanan deterministik konvensional. Google merekomendasikan pendekatan yang menggabungkan keunggulan kontrol keamanan deterministik dengan pertahanan dinamis berbasis penalaran. Pendekatan ini didasarkan pada tiga prinsip inti: pengawasan manusia, otonomi agen yang ditentukan dengan cermat, dan kemampuan observasi. Berikut adalah rekomendasi spesifik yang selaras dengan prinsip-prinsip inti ini. Pengawasan manusia: Sistem AI agentik terkadang dapat gagal atau tidak berfungsi seperti yang diharapkan. Misalnya, model mungkin membuat konten yang tidak akurat atau agen mungkin memilih alat yang tidak sesuai. Dalam sistem AI agentic yang penting bagi bisnis, sertakan alur human-in-the-loop untuk memungkinkan supervisor memantau, mengganti, dan menjeda agen secara real time. Misalnya, pengguna manusia dapat meninjau output agen, menyetujui atau menolak output, dan memberikan panduan lebih lanjut untuk memperbaiki kesalahan atau membuat keputusan strategis. Pendekatan ini menggabungkan efisiensi sistem AI agentik dengan pemikiran kritis dan keahlian domain pengguna manusia. Kontrol akses untuk agen: Konfigurasi izin agen menggunakan kontrol Identity and Access Management (IAM). Hanya berikan izin yang diperlukan kepada setiap agen untuk melakukan tugasnya dan berkomunikasi dengan alat dan dengan agen lain. Pendekatan ini membantu meminimalkan potensi dampak pelanggaran keamanan, karena agen yang disusupi akan memiliki akses terbatas ke bagian lain sistem. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan identitas dan izin untuk agen Anda dan Mengelola akses untuk agen yang di-deploy. Pemantauan: Pantau perilaku agen menggunakan kemampuan pelacakan komprehensif yang memberi Anda visibilitas tentang setiap tindakan yang dilakukan agen, termasuk proses penalaran, pemilihan alat, dan jalur eksekusinya. Untuk mengetahui informasi selengkapnya, lihat Logging agen di Vertex AI Agent Engine dan Logging di ADK. Untuk mengetahui informasi selengkapnya tentang mengamankan agen AI, lihat Keselamatan dan Keamanan untuk Agen AI. |
Vertex AI |
Tanggung jawab bersama: Keamanan adalah tanggung jawab bersama. Vertex AI mengamankan infrastruktur yang mendasarinya dan menyediakan alat serta kontrol keamanan untuk membantu Anda melindungi data, kode, dan model Anda. Anda bertanggung jawab untuk mengonfigurasi layanan dengan benar, mengelola kontrol akses, dan mengamankan aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat Tanggung jawab bersama Vertex AI. Kontrol keamanan: Vertex AI mendukung Google Cloud kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan residensi data, kunci enkripsi yang dikelola pelanggan (CMEK), keamanan jaringan menggunakan Kontrol Layanan VPC, dan Transparansi Akses. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut:
Keamanan: Model AI dapat menghasilkan respons berbahaya, terkadang sebagai respons terhadap perintah berbahaya.
Akses model: Anda dapat menyiapkan kebijakan organisasi untuk membatasi jenis dan versi model AI yang dapat digunakan dalam project Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Mengontrol akses ke model Model Garden. Perlindungan data: Untuk menemukan dan melakukan de-identifikasi data sensitif dalam perintah dan respons serta dalam data log, gunakan Cloud Data Loss Prevention API. Untuk mengetahui informasi selengkapnya, tonton video ini: Melindungi data sensitif di aplikasi AI. |
MCP | Lihat MCP dan Keamanan. |
A2A |
Keamanan transportasi: Protokol A2A mewajibkan HTTPS untuk semua komunikasi A2A di lingkungan produksi dan merekomendasikan Transport Layer Security (TLS) versi 1.2 atau yang lebih tinggi. Autentikasi: Protokol A2A mendelegasikan autentikasi ke mekanisme web standar seperti header HTTP dan ke standar seperti OAuth2 dan OpenID Connect. Setiap agen mengiklankan persyaratan autentikasi di Kartu Agennya. Untuk mengetahui informasi selengkapnya, lihat Autentikasi A2A. |
Cloud Run |
Keamanan ingress (untuk layanan frontend): Untuk mengontrol
akses ke aplikasi,
nonaktifkan
URL Autentikasi pengguna: Untuk mengautentikasi akses pengguna ke layanan Cloud Run frontend, gunakan Identity-Aware Proxy (IAP). Saat pengguna mencoba mengakses resource yang diamankan oleh IAP, IAP akan melakukan pemeriksaan autentikasi dan otorisasi. Untuk informasi selengkapnya, lihat Mengaktifkan IAP untuk Cloud Run. Keamanan image container: Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Untuk mengidentifikasi dan memitigasi risiko keamanan dalam image container, gunakan Artifact Analysis untuk menjalankan pemindaian kerentanan secara otomatis. Untuk informasi selengkapnya, lihat Ringkasan pemindaian container. Residensi data: Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih. Untuk panduan selengkapnya tentang keamanan container, lihat Tips pengembangan Cloud Run umum. |
Semua produk dalam arsitektur |
Enkripsi data: Secara default, Google Cloud mengenkripsi data dalam penyimpanan menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi data agen Anda menggunakan kunci enkripsi yang Anda kontrol, Anda dapat menggunakan CMEK yang Anda buat dan kelola di Cloud KMS. Untuk mengetahui informasi tentang Google Cloud layanan yang kompatibel dengan Cloud KMS, lihat Layanan yang kompatibel. Memitigasi risiko pemindahan data yang tidak sah: Untuk mengurangi risiko pemindahan data yang tidak sah, buat perimeter Kontrol Layanan VPC di seputar infrastruktur. Kontrol Layanan VPC mendukung semua layanan Google Cloud yang digunakan arsitektur referensi ini. Kontrol akses: Saat Anda mengonfigurasi izin untuk resource dalam topologi, ikuti prinsip hak istimewa terendah. Pengoptimalan pasca-deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keamanan menggunakan Hub Rekomendasi Active Assist. Tinjau rekomendasi dan terapkan sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. Keamanan lingkungan cloud: Gunakan alat di Security Command Center untuk mendeteksi kerentanan, mengidentifikasi dan memitigasi ancaman, menentukan dan men-deploy postur keamanan, serta mengekspor data untuk analisis lebih lanjut. |
Rekomendasi keamanan lainnya
- Google Cloud Perspektif AI dan ML Well-Architected Framework: Keamanan
- Pendekatan Google untuk Agen AI yang Aman: Pengantar
Keandalan
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.
Komponen | Pertimbangan dan rekomendasi desain |
---|---|
Agen |
Fault tolerance: Mendesain sistem agentic agar dapat mentoleransi atau menangani kegagalan tingkat agen. Jika memungkinkan, gunakan pendekatan terdesentralisasi di mana agen dapat beroperasi secara independen. Simulasikan kegagalan: Sebelum men-deploy sistem AI agentik ke produksi, validasikan dengan menyimulasikan lingkungan produksi. Mengidentifikasi dan memperbaiki masalah koordinasi antar-agen dan perilaku yang tidak terduga. Penanganan error: Untuk memungkinkan diagnosis dan pemecahan masalah error, terapkan mekanisme logging, penanganan pengecualian, dan coba lagi. |
Vertex AI |
Pengelolaan kuota: Vertex AI mendukung kuota bersama dinamis (DSQ) untuk model Gemini. DSQ membantu mengelola permintaan bayar sesuai penggunaan secara fleksibel, dan DSQ menghilangkan kebutuhan untuk mengelola kuota secara manual atau meminta penambahan kuota. DSQ mengalokasikan resource yang tersedia secara dinamis untuk model dan region tertentu di seluruh pelanggan aktif. Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk setiap pelanggan. Perencanaan kapasitas: Jika jumlah permintaan ke model melebihi kapasitas yang dialokasikan, kode error 429 akan ditampilkan. Untuk workload yang penting bagi bisnis dan memerlukan throughput tinggi yang konsisten, Anda dapat memesan throughput menggunakan Throughput yang Disediakan. Ketersediaan endpoint model: Jika data dapat dibagikan di beberapa wilayah atau negara, Anda dapat menggunakan endpoint global untuk model. |
Cloud Run | Ketahanan terhadap gangguan infrastruktur: Cloud Run adalah layanan regional. Layanan ini menyimpan data secara sinkron di beberapa zona dalam satu region dan secara otomatis melakukan load balancing traffic di seluruh zona. Jika terjadi pemadaman layanan zona, Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi pemadaman layanan region, layanan akan berhenti berjalan hingga Google menyelesaikan pemadaman layanan tersebut. |
Semua produk dalam arsitektur | Pengoptimalan pasca-deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keandalan menggunakan Hub Rekomendasi Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.
Operasi
Bagian ini menjelaskan faktor-faktor yang harus dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mendesain topologi yang dapat Anda operasikan secara efisien. Google Cloud
Komponen | Pertimbangan dan rekomendasi desain |
---|---|
Vertex AI |
Pemantauan menggunakan log: Secara default, log agen yang ditulis ke aliran Evaluasi berkelanjutan: Lakukan evaluasi kualitatif secara rutin terhadap output agen dan trajektori atau langkah-langkah yang dilakukan agen untuk menghasilkan output. Untuk menerapkan evaluasi agen, Anda dapat menggunakan layanan evaluasi AI generatif atau metode evaluasi yang didukung ADK. |
MCP |
Alat database: Untuk mengelola alat database secara efisien bagi agen AI Anda dan memastikan bahwa agen menangani kompleksitas seperti penggabungan koneksi dan autentikasi secara aman, gunakan MCP Toolbox for Databases. Direktori ini menyediakan lokasi terpusat untuk menyimpan dan memperbarui alat database. Anda dapat membagikan alat di seluruh agen dan memperbarui alat tanpa men-deploy ulang agen. Toolbox ini mencakup berbagai alat untuk Google Cloud database seperti AlloyDB untuk PostgreSQL dan untuk database pihak ketiga seperti MongoDB. Model AI generatif: Untuk mengizinkan agen AI menggunakan model AI generatif Google seperti Imagen dan Veo, Anda dapat menggunakan Server MCP untuk API media generatif Google Cloud. Produk dan alat keamanan Google: Agar agen AI Anda dapat mengakses produk dan alat keamanan Google seperti Google Security Operations, Google Threat Intelligence, dan Security Command Center, gunakan server MCP untuk produk keamanan Google. |
Semua produk Google Cloud dalam arsitektur | Pelacakan: Kumpulkan dan analisis data trace secara berkelanjutan menggunakan Cloud Trace. Data rekaman aktivitas memungkinkan Anda mengidentifikasi dan mendiagnosis error dengan cepat dalam alur kerja agen yang kompleks. Anda dapat melakukan analisis mendalam melalui visualisasi di alat Trace Explorer. Untuk mengetahui informasi selengkapnya, lihat Melacak agen. |
Untuk mengetahui prinsip dan rekomendasi keunggulan operasional yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keunggulan operasional dalam Framework yang Dirancang dengan Baik.
Pengoptimalan biaya
Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.
Komponen | Pertimbangan dan rekomendasi desain> |
---|---|
Vertex AI |
Analisis dan pengelolaan biaya: Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya buat metrik dasar untuk kueri per detik (QPS) dan token per detik (TPS). Kemudian, pantau metrik ini setelah deployment. Dasar pengukuran juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan mungkin diperlukan. Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan lanjutkan secara bertahap ke opsi yang lebih canggih. Perintah yang hemat biaya: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. Permintaan batch: Jika relevan, pertimbangkan prediksi batch. Permintaan batch memiliki biaya yang lebih rendah daripada permintaan standar. |
Cloud Run |
Alokasi resource: Saat membuat layanan Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Mulai dengan alokasi CPU dan memori default. Amati penggunaan dan biaya resource dari waktu ke waktu, dan sesuaikan alokasi sesuai kebutuhan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Pengoptimalan tarif: Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat biaya dengan diskon abonemen (CUD). |
Semua produk dalam arsitektur | Pengoptimalan setelah deployment: Setelah Anda men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan biaya dengan menggunakan Hub Rekomendasi Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk memperkirakan biaya resource Google Cloud , gunakan Google Cloud Kalkulator Harga.
Untuk prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.
Pengoptimalan performa
Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.
Komponen | Pertimbangan dan rekomendasi desain |
---|---|
Agen |
Pemilihan model: Saat Anda memilih model untuk sistem AI agentik, pertimbangkan kemampuan yang diperlukan untuk tugas yang perlu dilakukan oleh agen. Pengoptimalan perintah: Untuk meningkatkan dan mengoptimalkan performa perintah dengan cepat dalam skala besar dan menghilangkan kebutuhan untuk penulisan ulang manual, gunakan Pengoptimal perintah Vertex AI. Pengoptimal membantu Anda menyesuaikan perintah secara efisien di berbagai model. |
Vertex AI |
Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan lanjutkan secara bertahap ke opsi yang lebih canggih. Rekayasa perintah: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "buat daftar 3 poin penting". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi latensi permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. |
Cloud Run |
Alokasi resource: Bergantung pada persyaratan performa, konfigurasikan memori dan CPU yang akan dialokasikan ke layanan Cloud Run. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Untuk panduan pengoptimalan performa selengkapnya, lihat Tips pengembangan umum Cloud Run. |
Semua produk dalam arsitektur | Pengoptimalan pasca-deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan performa menggunakan Hub Rekomendasi Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Hub Rekomendasi. |
Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.
Deployment
Untuk mempelajari cara membangun dan men-deploy sistem AI multi-agen, gunakan contoh kode berikut. Contoh kode ini adalah titik awal yang berfungsi penuh untuk pembelajaran dan eksperimen. Untuk pengoperasian yang optimal di lingkungan produksi, Anda harus menyesuaikan kode berdasarkan persyaratan bisnis dan teknis tertentu.
- Penasihat keuangan: Menganalisis data pasar saham, membuat strategi perdagangan, menentukan rencana eksekusi, dan mengevaluasi risiko.
- Asisten peneliti: Merencanakan dan melakukan riset, mengevaluasi temuan, dan menyusun laporan penelitian.
- Agen asuransi: Membuat langganan, memberikan bantuan darurat di jalan, dan menangani klaim asuransi.
- Pengoptimal penelusuran: Temukan kata kunci penelusuran, analisis halaman web, dan berikan saran untuk mengoptimalkan penelusuran.
- Penganalisis data: Mengambil data, melakukan manipulasi yang kompleks, membuat visualisasi, dan menjalankan tugas ML.
- Agen pemasaran web: Memilih nama domain, mendesain situs, membuat kampanye, dan membuat konten.
- Perencana Airbnb (dengan A2A dan MCP): Untuk lokasi dan waktu tertentu, temukan listingan Airbnb dan dapatkan informasi cuaca.
Untuk contoh kode guna mulai menggunakan ADK bersama server MCP, lihat Alat MCP.
Langkah berikutnya
- Jelajahi contoh agen dan alat di Agent Garden.
- Bangun agen menggunakan Agent Development Kit (ADK).
- Deploy agen ke Google Cloud.
- Menghosting agen A2A di Cloud Run.
- Menghosting server MCP di Cloud Run.
- Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
Penulis: Kumar Dhanagopal | Cross-Product Solution Developer
Kontributor lainnya:
- Alan Blount | Product Manager
- Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
- Holt Skinner | Developer Advocate
- Jack Wotherspoon | Developer Advocate
- Joe Shirey | Manager, Cloud Developer Relations
- Megan O'Keefe | Developer Advocate
- Samantha He | Technical Writer
- Shir Meir Lador | Engineering Manager, Developer Relations
- Victor Dantas | Gen AI Field Solutions Architect
- Vlad Kolesnikov | Developer Relations Engineer