Halaman ini diterjemahkan oleh Cloud Translation API.

Sistem AI multi-agen di Google Cloud

Last reviewed 2025-09-16 UTC

Dokumen ini memberikan arsitektur referensi untuk membantu Anda mendesain sistem AI multi-agen yang andal di Google Cloud. Sistem AI multi-agen mengoptimalkan proses yang kompleks dan dinamis dengan menyegmentasikannya menjadi tugas-tugas terpisah yang dijalankan secara kolaboratif oleh beberapa agen AI khusus.

Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator yang membangun dan mengelola infrastruktur dan aplikasi AI di cloud. Dokumen ini mengasumsikan pemahaman dasar tentang agen dan model AI. Dokumen ini tidak memberikan panduan khusus untuk mendesain dan membuat kode agen AI.

Arsitektur

Diagram berikut menunjukkan arsitektur untuk contoh sistem AI multi-agen yang di-deploy di Google Cloud.

Arsitektur untuk sistem AI multi-agen di Google Cloud.

Komponen arsitektur

Contoh arsitektur di bagian sebelumnya berisi komponen berikut:

Komponen	Deskripsi
Frontend	Pengguna berinteraksi dengan sistem multi-agen melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run tanpa server.
Agen	Agen koordinator mengontrol sistem AI agentik dalam contoh ini. Agen koordinator memanggil subagen yang sesuai untuk memicu alur agen. Agen dapat berkomunikasi satu sama lain menggunakan protokol Agent2Agent (A2A), yang memungkinkan interoperabilitas antar-agen terlepas dari bahasa pemrograman dan runtime-nya. Contoh arsitektur menunjukkan agen dalam pola berurutan dan pola penyempurnaan iteratif. Untuk mengetahui informasi selengkapnya tentang sub-agen dalam contoh ini, lihat bagian Alur agen.
Runtime agen	Agen AI dapat di-deploy sebagai layanan Cloud Run serverless, sebagai aplikasi dalam container di Google Kubernetes Engine (GKE), atau di Vertex AI Agent Engine.
ADK	Agent Development Kit (ADK) menyediakan alat dan framework untuk mengembangkan, menguji, dan men-deploy agen. ADK mengabstraksi kompleksitas pembuatan agen dan memungkinkan developer AI berfokus pada logika dan kemampuan agen.
Model AI dan runtime model	Untuk penayangan inferensi, agen dalam arsitektur contoh ini menggunakan model AI di Vertex AI. Arsitektur ini menunjukkan Cloud Run dan GKE sebagai runtime alternatif untuk model AI yang Anda pilih untuk digunakan.
Model Armor	Model Armor memungkinkan inspeksi dan sanitasi input dan respons untuk model yang di-deploy di Vertex AI dan GKE. Untuk mengetahui informasi selengkapnya, lihat Integrasi Model Armor dengan layanan Google Cloud .
Klien, server, dan alat MCP	Model Context Protocol (MCP) memfasilitasi akses ke alat dengan menstandardisasi interaksi antara agen dan alat. Untuk setiap pasangan alat-agen, klien MCP mengirimkan permintaan ke server MCP yang digunakan agen untuk mengakses alat seperti database, sistem file, atau API.

Alur agentic

Contoh sistem multi-agen dalam arsitektur sebelumnya memiliki alur berikut:

Pengguna memasukkan perintah melalui frontend, seperti antarmuka chat, yang berjalan sebagai layanan Cloud Run serverless.
Frontend meneruskan perintah ke agen koordinator.
Agen koordinator memulai salah satu alur kerja agen berikut berdasarkan maksud yang dinyatakan dalam perintah.
- Berurutan (Sequential):
  1. Tugas - Subagen melakukan tugas.
  2. Subagen tugas-A memanggil subagen tugas-A.1.
- Penyempurnaan iteratif:
  1. Subagen tugas-B melakukan tugas.
  2. Subagen evaluator kualitas meninjau output subagen tugas-B.
  3. Jika output tidak memuaskan, evaluator kualitas akan memanggil subagen peningkat kualitas perintah untuk menyempurnakan perintah.
  4. Subagen tugas-B melakukan tugasnya lagi dengan menggunakan perintah yang ditingkatkan.
  Siklus ini berlanjut hingga output memuaskan atau jumlah iterasi maksimum tercapai.
Arsitektur contoh mencakup jalur human-in-the-loop untuk memungkinkan pengguna manusia melakukan intervensi dalam alur agentik jika diperlukan.
Subagen tugas-A.1 dan subagen evaluator kualitas memanggil subagen pembuat respons secara independen.
Subagen pembuat respons menghasilkan respons, melakukan validasi, dan pemeriksaan perujukan, lalu mengirimkan respons akhir kepada pengguna melalui agen koordinator.

Produk dan alat yang digunakan

Arsitektur referensi ini menggunakan produk dan alat pihak ketiga berikut: Google Cloud

Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
Google Kubernetes Engine (GKE): Layanan Kubernetes yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google.
Model Armor: Layanan yang memberikan perlindungan untuk resource AI generatif dan agentic Anda terhadap injeksi perintah, kebocoran data sensitif, dan konten berbahaya.
Agent Development Kit (ADK): Kumpulan alat dan library untuk mengembangkan, menguji, dan men-deploy agen AI.
Protokol Agent2Agent (A2A): Protokol terbuka yang memungkinkan komunikasi dan interoperabilitas antar-agen terlepas dari bahasa pemrograman dan runtime-nya.
Model Context Protocol (MCP): Standar open source untuk menghubungkan aplikasi AI ke sistem eksternal.

Kasus penggunaan

Sistem AI multi-agen cocok untuk kasus penggunaan kompleks yang memerlukan kolaborasi dan koordinasi di berbagai rangkaian keahlian khusus untuk mencapai tujuan bisnis. Untuk mengidentifikasi kasus penggunaan yang cocok untuk sistem AI multi-agen, analisis proses bisnis Anda dan identifikasi tugas tertentu yang dapat ditingkatkan oleh AI. Berfokus pada hasil bisnis yang nyata, seperti pengurangan biaya dan pemrosesan yang lebih cepat. Pendekatan ini membantu menyelaraskan investasi Anda dalam AI dengan nilai bisnis.

Berikut adalah contoh kasus penggunaan untuk sistem AI multi-agen.

Penasihat keuangan

Memberikan rekomendasi perdagangan saham yang dipersonalisasi dan mengeksekusi perdagangan. Diagram berikut menunjukkan contoh alur berbasis agen untuk kasus penggunaan ini. Contoh ini menggunakan pola berurutan.

Kasus penggunaan penasihat keuangan untuk sistem multi-agen.

Diagram menunjukkan alur berikut:

Agen pengambil data mengambil harga saham real-time dan historis, laporan keuangan perusahaan, dan data relevan lainnya dari sumber tepercaya.
Agen penganalisis keuangan menerapkan teknik analisis dan pembuatan diagram yang sesuai pada data, mengidentifikasi pola pergerakan harga, dan membuat prediksi.
Agen pemberi rekomendasi saham menggunakan analisis dan diagram untuk membuat rekomendasi yang dipersonalisasi untuk membeli dan menjual saham tertentu berdasarkan profil risiko dan tujuan investasi pengguna.
Agen eksekutor perdagangan membeli dan menjual saham atas nama pengguna.

Asisten riset

Buat rencana riset, kumpulkan informasi, evaluasi dan sempurnakan riset, lalu susun laporan. Diagram berikut menunjukkan contoh alur agentik untuk kasus penggunaan ini. Alur utama dalam contoh ini menggunakan pola berurutan. Contoh ini juga mencakup pola penyempurnaan iteratif.

Kasus penggunaan asisten riset untuk sistem multi-agen.

Diagram menunjukkan alur berikut:

Agen perencana membuat rencana penelitian yang mendetail.
Agen peneliti menyelesaikan tugas berikut:
1. Menggunakan rencana riset untuk mengidentifikasi sumber data internal dan eksternal yang sesuai.
2. Mengumpulkan dan menganalisis data yang diperlukan.
3. Menyiapkan ringkasan riset dan memberikan ringkasan tersebut kepada agen pengevaluasi.
Agen peneliti mengulangi tugas ini hingga agen evaluator menyetujui penelitian.
Agen pembuat laporan akan membuat laporan penelitian akhir.

Pengoptimal supply chain

Mengoptimalkan inventaris, melacak pengiriman, dan berkomunikasi dengan partner supply chain. Diagram berikut menunjukkan contoh alur berbasis agen untuk kasus penggunaan ini. Contoh ini menggunakan pola berurutan.

Kasus penggunaan pengoptimal supply chain untuk sistem multi-agen.

Agen pengelola gudang memastikan tingkat stok yang optimal dengan membuat pesanan pengisian ulang berdasarkan inventaris, perkiraan permintaan, dan waktu tunggu pemasok.
- Agen berinteraksi dengan agen pelacak pengiriman untuk melacak pengiriman.
- Agen berinteraksi dengan agen komunikator pemasok untuk memberi tahu pemasok tentang perubahan pesanan.
Agen pelacak pengiriman memastikan pemenuhan pesanan yang tepat waktu dan efisien dengan berintegrasi dengan platform logistik pemasok dan sistem ekspedisi.
Agen komunikator pemasok berkomunikasi dengan pemasok eksternal atas nama agen lain dalam sistem.

Pertimbangan desain

Bagian ini menjelaskan faktor desain, praktik terbaik, dan rekomendasi yang perlu dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mengembangkan topologi yang memenuhi persyaratan spesifik Anda terkait keamanan, keandalan, biaya, dan performa.

Panduan di bagian ini tidak lengkap. Bergantung pada persyaratan beban kerja Anda dan produk serta fitur pihak ketiga yang Anda gunakan, mungkin ada faktor desain dan pertimbangan tambahan yang harus Anda pertimbangkan. Google Cloud

Desain sistem

Bagian ini memberikan panduan untuk membantu Anda memilih Google Cloud wilayah untuk deployment dan memilih Google Cloud produk dan alat yang sesuai.

Pemilihan wilayah

Saat memilih Google Cloud region untuk aplikasi AI Anda, pertimbangkan faktor-faktor berikut:

Ketersediaan layanan Google Cloud di setiap region.
Persyaratan latensi pengguna akhir.
Biaya sumber Google Cloud daya.
Persyaratan peraturan.

Untuk memilih lokasi Google Cloud yang sesuai untuk aplikasi Anda, gunakan alat berikut:

Google Cloud Pemilih Region: Alat berbasis web interaktif untuk memilih region Google Cloud yang optimal untuk aplikasi dan data Anda berdasarkan faktor-faktor seperti jejak karbon, biaya, dan latensi.
Cloud Location Finder API: API publik yang menyediakan cara terprogram untuk menemukan lokasi deployment di Google Cloud, Google Distributed Cloud, dan penyedia cloud lainnya.

Desain agen

Bagian ini memberikan rekomendasi umum untuk mendesain agen AI. Panduan mendetail tentang penulisan kode dan logika agen berada di luar cakupan dokumen ini.

Fokus desain	Rekomendasi
Definisi dan desain agen	Tentukan dengan jelas sasaran bisnis sistem AI agentik dan tugas yang dilakukan setiap agen. Pilih pola desain agen yang paling sesuai dengan kebutuhan Anda. Gunakan ADK untuk membuat, men-deploy, dan mengelola arsitektur agentik secara efisien.
Interaksi agen	Merancang agen yang berinteraksi dengan manusia dalam arsitektur untuk mendukung interaksi bahasa alami. Pastikan setiap agen mengomunikasikan tindakan dan statusnya dengan jelas kepada klien dependennya. Merancang agen untuk mendeteksi dan menangani kueri yang ambigu dan interaksi yang bernuansa.
Konteks, alat, dan data	Pastikan agen memiliki konteks yang cukup untuk melacak interaksi multi-giliran dan parameter sesi. Jelaskan dengan jelas tujuan, argumen, dan penggunaan alat yang dapat digunakan agen. Pastikan respons agen didasarkan pada sumber data yang andal untuk mengurangi halusinasi. Menerapkan logika untuk menangani situasi tidak cocok, seperti saat perintah di luar topik.

Keamanan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan keamanan workload Anda.

Komponen	Pertimbangan dan rekomendasi desain
Agen	Agen AI menimbulkan risiko keamanan unik dan kritis tertentu yang mungkin tidak dapat dimitigasi secara memadai oleh praktik keamanan deterministik konvensional. Google merekomendasikan pendekatan yang menggabungkan keunggulan kontrol keamanan deterministik dengan pertahanan dinamis berbasis penalaran. Pendekatan ini didasarkan pada tiga prinsip inti: pengawasan manusia, otonomi agen yang ditentukan dengan cermat, dan kemampuan observasi. Berikut adalah rekomendasi spesifik yang selaras dengan prinsip inti ini. Pengawasan manusia: Sistem AI agentik terkadang dapat gagal atau tidak berfungsi seperti yang diharapkan. Misalnya, model mungkin membuat konten yang tidak akurat atau agen mungkin memilih alat yang tidak sesuai. Dalam sistem AI agentic yang penting bagi bisnis, sertakan alur human-in-the-loop agar supervisor manusia dapat memantau, mengganti, dan menjeda agen. Misalnya, pengguna manusia dapat meninjau output agen, menyetujui atau menolak output, dan memberikan panduan lebih lanjut untuk memperbaiki kesalahan atau membuat keputusan strategis. Pendekatan ini menggabungkan efisiensi sistem AI agentik dengan pemikiran kritis dan keahlian domain pengguna manusia. Kontrol akses untuk agen: Konfigurasi izin agen menggunakan kontrol Identity and Access Management (IAM). Hanya berikan izin yang diperlukan kepada setiap agen untuk melakukan tugasnya dan berkomunikasi dengan alat dan dengan agen lain. Pendekatan ini membantu meminimalkan potensi dampak pelanggaran keamanan, karena agen yang disusupi akan memiliki akses terbatas ke bagian lain sistem. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan identitas dan izin untuk agen Anda dan Mengelola akses untuk agen yang di-deploy. Pemantauan: Pantau perilaku agen menggunakan kemampuan pelacakan komprehensif yang memberi Anda visibilitas tentang setiap tindakan yang dilakukan agen, termasuk proses penalaran, pemilihan alat, dan jalur eksekusinya. Untuk mengetahui informasi selengkapnya, lihat Logging agen di Vertex AI Agent Engine dan Logging di ADK. Untuk mengetahui informasi selengkapnya tentang pengamanan agen AI, lihat Keselamatan dan Keamanan untuk Agen AI.
Vertex AI	Tanggung jawab bersama: Keamanan adalah tanggung jawab bersama. Vertex AI mengamankan infrastruktur yang mendasarinya dan menyediakan alat serta kontrol keamanan untuk membantu Anda melindungi data, kode, dan model Anda. Anda bertanggung jawab untuk mengonfigurasi layanan dengan benar, mengelola kontrol akses, dan mengamankan aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat Tanggung jawab bersama Vertex AI. Kontrol keamanan: Vertex AI mendukung Google Cloud kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan residensi data, kunci enkripsi yang dikelola pelanggan (CMEK), keamanan jaringan menggunakan Kontrol Layanan VPC, dan Transparansi Akses. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Kontrol keamanan untuk Vertex AI Kontrol keamanan untuk AI Generatif AI generatif dan retensi data nol Keamanan: Model AI dapat menghasilkan respons berbahaya, terkadang sebagai respons terhadap perintah berbahaya. Untuk meningkatkan keamanan dan mengurangi potensi penyalahgunaan sistem AI agentik, Anda dapat mengonfigurasi filter konten untuk bertindak sebagai penghalang terhadap input dan respons berbahaya. Untuk informasi selengkapnya, lihat Filter keamanan dan konten. Untuk memeriksa dan membersihkan permintaan dan respons inferensi dari ancaman seperti injeksi perintah dan konten berbahaya, Anda dapat menggunakan Model Armor. Model Armor membantu Anda mencegah input berbahaya, memverifikasi keamanan konten, melindungi data sensitif, mematuhi peraturan, dan menerapkan kebijakan keamanan secara konsisten. Akses model: Anda dapat menyiapkan kebijakan organisasi untuk membatasi jenis dan versi model AI yang dapat digunakan dalam project Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Mengontrol akses ke model Model Garden. Perlindungan data: Untuk menemukan dan melakukan de-identifikasi data sensitif dalam perintah dan respons serta dalam data log, gunakan Cloud Data Loss Prevention API. Untuk mengetahui informasi selengkapnya, tonton video ini: Melindungi data sensitif di aplikasi AI.
MCP	Lihat MCP dan Keamanan.
A2A	Keamanan transportasi: Protokol A2A mewajibkan HTTPS untuk semua komunikasi A2A di lingkungan produksi dan merekomendasikan Transport Layer Security (TLS) versi 1.2 atau yang lebih baru. Autentikasi: Protokol A2A mendelegasikan autentikasi ke mekanisme web standar seperti header HTTP dan ke standar seperti OAuth2 dan OpenID Connect. Setiap agen mengiklankan persyaratan autentikasi di Kartu Agennya. Untuk mengetahui informasi selengkapnya, lihat Autentikasi A2A.
Cloud Run	Keamanan ingress (untuk layanan frontend): Untuk mengontrol akses ke aplikasi, nonaktifkan URL `run.app` default dari frontend layanan Cloud Run dan siapkan Load Balancer Aplikasi eksternal regional. Selain menyeimbangkan beban traffic masuk ke aplikasi, load balancer menangani pengelolaan sertifikat SSL. Untuk perlindungan tambahan, Anda dapat menggunakan kebijakan keamanan Google Cloud Armor untuk menyediakan pemfilteran permintaan, perlindungan DDoS, dan pembatasan kecepatan untuk layanan. Autentikasi pengguna: Untuk mengautentikasi akses pengguna ke layanan Cloud Run frontend, gunakan Identity-Aware Proxy (IAP). Saat pengguna mencoba mengakses resource yang diamankan oleh IAP, IAP akan melakukan pemeriksaan autentikasi dan otorisasi. Untuk informasi selengkapnya, lihat Mengaktifkan IAP untuk Cloud Run. Keamanan image container: Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Untuk mengidentifikasi dan memitigasi risiko keamanan dalam image container, gunakan Artifact Analysis untuk menjalankan pemindaian kerentanan secara otomatis. Untuk informasi selengkapnya, lihat Ringkasan pemindaian container. Residensi data: Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih. Untuk panduan selengkapnya tentang keamanan container, lihat Tips pengembangan Cloud Run umum.
Semua produk dalam arsitektur	Enkripsi data: Secara default, Google Cloud mengenkripsi data dalam penyimpanan menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi data agen Anda menggunakan kunci enkripsi yang Anda kontrol, Anda dapat menggunakan CMEK yang Anda buat dan kelola di Cloud KMS. Untuk mengetahui informasi tentang Google Cloud layanan yang kompatibel dengan Cloud KMS, lihat Layanan yang kompatibel. Memitigasi risiko pemindahan data yang tidak sah: Untuk mengurangi risiko pemindahan data yang tidak sah, buat perimeter Kontrol Layanan VPC di seputar infrastruktur. Kontrol Layanan VPC mendukung semua layanan Google Cloud yang digunakan arsitektur referensi ini. Kontrol akses: Saat Anda mengonfigurasi izin untuk resource dalam topologi, ikuti prinsip hak istimewa terendah. Keamanan lingkungan cloud: Gunakan alat di Security Command Center untuk mendeteksi kerentanan, mengidentifikasi dan memitigasi ancaman, menentukan dan men-deploy postur keamanan, serta mengekspor data untuk analisis lebih lanjut. Pengoptimalan setelah deployment: Setelah Anda men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keamanan menggunakan Active Assist. Tinjau rekomendasi dan terapkan sesuai kebutuhan untuk lingkungan Anda. Untuk informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Rekomendasi keamanan lainnya

Keandalan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.

Komponen	Pertimbangan dan rekomendasi desain
Agen	Fault tolerance: Mendesain sistem agentik agar dapat mentoleransi atau menangani kegagalan tingkat agen. Jika memungkinkan, gunakan pendekatan terdesentralisasi di mana agen dapat beroperasi secara independen. Simulasikan kegagalan: Sebelum men-deploy sistem AI agentik ke produksi, validasikan dengan menyimulasikan lingkungan produksi. Mengidentifikasi dan memperbaiki masalah koordinasi antar-agen dan perilaku yang tidak terduga. Penanganan error: Untuk memungkinkan diagnosis dan pemecahan masalah error, terapkan mekanisme logging, penanganan pengecualian, dan coba lagi.
Vertex AI	Pengelolaan kuota: Vertex AI mendukung kuota bersama dinamis (DSQ) untuk model Gemini. DSQ membantu mengelola permintaan bayar sesuai penggunaan secara fleksibel, dan DSQ menghilangkan kebutuhan untuk mengelola kuota secara manual atau meminta penambahan kuota. DSQ mengalokasikan resource yang tersedia secara dinamis untuk model dan region tertentu di seluruh pelanggan aktif. Dengan DSQ, tidak ada batas kuota yang telah ditentukan sebelumnya untuk setiap pelanggan. Perencanaan kapasitas: Jika jumlah permintaan ke model melebihi kapasitas yang dialokasikan, kode error 429 akan ditampilkan. Untuk workload yang penting bagi bisnis dan memerlukan throughput tinggi yang konsisten, Anda dapat memesan throughput menggunakan Throughput yang Disediakan. Ketersediaan endpoint model: Jika data dapat dibagikan di beberapa wilayah atau negara, Anda dapat menggunakan endpoint global untuk model.
Cloud Run	Ketahanan terhadap gangguan infrastruktur: Cloud Run adalah layanan regional. Layanan ini menyimpan data secara sinkron di beberapa zona dalam satu region dan secara otomatis melakukan load balancing traffic di seluruh zona. Jika terjadi pemadaman layanan zona, Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi pemadaman layanan region, layanan akan berhenti berjalan hingga Google menyelesaikan pemadaman layanan tersebut.
Semua produk dalam arsitektur	Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan keandalan menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.

Operasi

Bagian ini menjelaskan faktor-faktor yang harus dipertimbangkan saat Anda menggunakan arsitektur referensi ini untuk mendesain topologi yang dapat Anda operasikan secara efisien. Google Cloud

Komponen Pertimbangan dan rekomendasi desain

Vertex AI

Komponen	Pertimbangan dan rekomendasi desain
Vertex AI	Pemantauan menggunakan log: Secara default, log agen yang ditulis ke aliran `stdout` dan `stderr` akan dirutekan ke Cloud Logging. Untuk logging tingkat lanjut, Anda dapat mengintegrasikan logger Python dengan Cloud Logging. Jika Anda memerlukan kontrol penuh atas logging dan log terstruktur, gunakan klien Cloud Logging. Untuk mengetahui informasi selengkapnya, lihat Mencatat agen dan Mencatat di ADK. Evaluasi berkelanjutan: Lakukan evaluasi kualitatif secara rutin terhadap output agen dan trajektori atau langkah-langkah yang dilakukan agen untuk menghasilkan output. Untuk menerapkan evaluasi agen, Anda dapat menggunakan layanan evaluasi AI generatif atau metode evaluasi yang didukung ADK.
MCP	Alat database: Untuk mengelola alat database secara efisien bagi agen AI Anda dan memastikan bahwa agen menangani kompleksitas seperti penggabungan koneksi dan autentikasi secara aman, gunakan MCP Toolbox for Databases. Direktori ini menyediakan lokasi terpusat untuk menyimpan dan memperbarui alat database. Anda dapat membagikan alat di seluruh agen dan memperbarui alat tanpa men-deploy ulang agen. Toolbox ini mencakup berbagai alat untuk Google Cloud database seperti AlloyDB untuk PostgreSQL dan untuk database pihak ketiga seperti MongoDB. Model AI generatif: Untuk mengizinkan agen AI menggunakan model AI generatif Google seperti Imagen dan Veo, Anda dapat menggunakan Server MCP untuk Google CloudAPI media generatif. Produk dan alat keamanan Google: Agar agen AI Anda dapat mengakses produk dan alat keamanan Google seperti Google Security Operations, Google Threat Intelligence, dan Security Command Center, gunakan server MCP untuk produk keamanan Google.
Semua produk Google Cloud dalam arsitektur	Pelacakan: Mengumpulkan dan menganalisis data trace secara berkelanjutan menggunakan Cloud Trace. Data rekaman aktivitas memungkinkan Anda mengidentifikasi dan mendiagnosis error dengan cepat dalam alur kerja agen yang kompleks. Anda dapat melakukan analisis mendalam melalui visualisasi di alat Trace Explorer. Untuk mengetahui informasi selengkapnya, lihat Melacak agen.

Pemantauan menggunakan log: Secara default, log agen yang ditulis ke aliran stdout dan stderr akan dirutekan ke Cloud Logging. Untuk logging tingkat lanjut, Anda dapat mengintegrasikan logger Python dengan Cloud Logging. Jika Anda memerlukan kontrol penuh atas logging dan log terstruktur, gunakan klien Cloud Logging. Untuk mengetahui informasi selengkapnya, lihat Mencatat agen dan Mencatat di ADK.

Evaluasi berkelanjutan: Lakukan evaluasi kualitatif secara rutin terhadap output agen dan trajektori atau langkah-langkah yang dilakukan agen untuk menghasilkan output. Untuk menerapkan evaluasi agen, Anda dapat menggunakan layanan evaluasi AI generatif atau metode evaluasi yang didukung ADK.

MCP

Alat database: Untuk mengelola alat database secara efisien bagi agen AI Anda dan memastikan bahwa agen menangani kompleksitas seperti penggabungan koneksi dan autentikasi secara aman, gunakan MCP Toolbox for Databases. Direktori ini menyediakan lokasi terpusat untuk menyimpan dan memperbarui alat database. Anda dapat membagikan alat di seluruh agen dan memperbarui alat tanpa men-deploy ulang agen. Toolbox ini mencakup berbagai alat untuk Google Cloud database seperti AlloyDB untuk PostgreSQL dan untuk database pihak ketiga seperti MongoDB.

Model AI generatif: Untuk mengizinkan agen AI menggunakan model AI generatif Google seperti Imagen dan Veo, Anda dapat menggunakan Server MCP untuk Google CloudAPI media generatif.

Produk dan alat keamanan Google: Agar agen AI Anda dapat mengakses produk dan alat keamanan Google seperti Google Security Operations, Google Threat Intelligence, dan Security Command Center, gunakan server MCP untuk produk keamanan Google.

Semua produk Google Cloud dalam arsitektur Pelacakan: Mengumpulkan dan menganalisis data trace secara berkelanjutan menggunakan Cloud Trace. Data rekaman aktivitas memungkinkan Anda mengidentifikasi dan mendiagnosis error dengan cepat dalam alur kerja agen yang kompleks. Anda dapat melakukan analisis mendalam melalui visualisasi di alat Trace Explorer. Untuk mengetahui informasi selengkapnya, lihat Melacak agen.

Untuk mengetahui prinsip dan rekomendasi keunggulan operasional yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keunggulan operasional dalam Framework yang Dirancang dengan Baik.

Pengoptimalan biaya

Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.

Komponen	Pertimbangan dan rekomendasi desain
Vertex AI	Analisis dan pengelolaan biaya: Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya buat metrik dasar untuk kueri per detik (QPS) dan token per detik (TPS). Kemudian, pantau metrik ini setelah deployment. Dasar pengukuran juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan mungkin diperlukan. Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan lanjutkan secara bertahap ke opsi yang lebih canggih. Perintah yang hemat biaya: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching. Permintaan batch: Jika relevan, pertimbangkan prediksi batch. Permintaan batch memiliki biaya yang lebih rendah daripada permintaan standar.
Cloud Run	Alokasi resource: Saat membuat layanan Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Mulai dengan alokasi CPU dan memori default. Amati penggunaan dan biaya resource dari waktu ke waktu, dan sesuaikan alokasi sesuai kebutuhan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Mengonfigurasi batas memori untuk layanan Mengonfigurasi batas CPU untuk layanan Pengoptimalan tarif: Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat biaya dengan diskon abonemen (CUD).
Semua produk dalam arsitektur	Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan biaya menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Komponen

Pertimbangan dan rekomendasi desain

Vertex AI

Analisis dan pengelolaan biaya: Untuk menganalisis dan mengelola biaya Vertex AI, sebaiknya buat metrik dasar untuk kueri per detik (QPS) dan token per detik (TPS). Kemudian, pantau metrik ini setelah deployment. Dasar pengukuran juga membantu perencanaan kapasitas. Misalnya, garis dasar membantu Anda menentukan kapan Throughput yang Disediakan mungkin diperlukan.

Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan lanjutkan secara bertahap ke opsi yang lebih canggih.

Perintah yang hemat biaya: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "sebutkan 3 poin utama". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah.

Context caching: Untuk mengurangi biaya permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching.

Permintaan batch: Jika relevan, pertimbangkan prediksi batch. Permintaan batch memiliki biaya yang lebih rendah daripada permintaan standar.

Cloud Run

Alokasi resource: Saat membuat layanan Cloud Run, Anda dapat menentukan jumlah memori dan CPU yang akan dialokasikan. Mulai dengan alokasi CPU dan memori default. Amati penggunaan dan biaya resource dari waktu ke waktu, dan sesuaikan alokasi sesuai kebutuhan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut:

Pengoptimalan tarif: Jika dapat memprediksi persyaratan CPU dan memori, Anda dapat menghemat biaya dengan diskon abonemen (CUD).

Semua produk dalam arsitektur

Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk lebih mengoptimalkan biaya menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk memperkirakan biaya resource Google Cloud , gunakan Google Cloud Kalkulator Harga.

Untuk prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.

Pengoptimalan performa

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.

Komponen	Pertimbangan dan rekomendasi desain
Agen	Pemilihan model: Saat memilih model untuk sistem AI agentic Anda, pertimbangkan kemampuan yang diperlukan untuk tugas yang perlu dilakukan oleh agen. Pengoptimalan perintah: Untuk meningkatkan dan mengoptimalkan performa perintah dengan cepat dalam skala besar dan menghilangkan kebutuhan untuk penulisan ulang manual, gunakan Pengoptimal perintah Vertex AI. Pengoptimal membantu Anda menyesuaikan perintah secara efisien di berbagai model.
Vertex AI	Pemilihan model: Model yang Anda pilih untuk aplikasi AI secara langsung memengaruhi biaya dan performa. Untuk mengidentifikasi model yang memberikan keseimbangan optimal antara performa dan biaya untuk kasus penggunaan spesifik Anda, uji model secara iteratif. Sebaiknya mulai dengan model yang paling hemat biaya dan lanjutkan secara bertahap ke opsi yang lebih canggih. Rekayasa perintah: Panjang perintah (input) dan respons yang dihasilkan (output) secara langsung memengaruhi performa dan biaya. Tulis perintah yang singkat, langsung, dan memberikan konteks yang memadai. Desain perintah Anda untuk mendapatkan respons yang ringkas dari model. Misalnya, sertakan frasa seperti "ringkas dalam 2 kalimat" atau "buat daftar 3 poin penting". Untuk mengetahui informasi selengkapnya, lihat praktik terbaik untuk desain perintah. Context caching: Untuk mengurangi latensi permintaan yang berisi konten berulang dengan jumlah token input yang tinggi, gunakan context caching.
Cloud Run	Alokasi resource: Bergantung pada persyaratan performa, konfigurasikan memori dan CPU yang akan dialokasikan ke layanan Cloud Run. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Mengonfigurasi batas memori untuk layanan Mengonfigurasi batas CPU untuk layanan Untuk panduan pengoptimalan performa selengkapnya, lihat Tips pengembangan umum Cloud Run.
Semua produk dalam arsitektur	Pengoptimalan setelah deployment: Setelah men-deploy aplikasi di Google Cloud, dapatkan rekomendasi untuk mengoptimalkan performa lebih lanjut menggunakan Active Assist. Tinjau rekomendasi dan terapkan rekomendasi tersebut sesuai dengan lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Menemukan rekomendasi di Active Assist.

Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.

Deployment

Untuk mempelajari cara membangun dan men-deploy sistem AI multi-agen, gunakan contoh kode berikut. Contoh kode ini adalah titik awal yang berfungsi penuh untuk pembelajaran dan eksperimen. Untuk pengoperasian yang optimal di lingkungan produksi, Anda harus menyesuaikan kode berdasarkan persyaratan bisnis dan teknis tertentu.

Penasihat keuangan: Menganalisis data pasar saham, membuat strategi perdagangan, menentukan rencana eksekusi, dan mengevaluasi risiko.
Asisten peneliti: Merencanakan dan melakukan riset, mengevaluasi temuan, dan menyusun laporan penelitian.
Agen asuransi: Membuat langganan, memberikan bantuan darurat di jalan, dan menangani klaim asuransi.
Pengoptimal penelusuran: Temukan kata kunci penelusuran, analisis halaman web, dan berikan saran untuk mengoptimalkan penelusuran.
Penganalisis data: Mengambil data, melakukan manipulasi yang kompleks, membuat visualisasi, dan menjalankan tugas ML.
Agen pemasaran web: Memilih nama domain, mendesain situs, membuat kampanye, dan membuat konten.
Perencana Airbnb (dengan A2A dan MCP): Untuk lokasi dan waktu tertentu, temukan listingan Airbnb dan dapatkan informasi cuaca.

Untuk contoh kode guna mulai menggunakan ADK bersama server MCP, lihat Alat MCP.

Langkah berikutnya

Pilih pola desain untuk sistem AI agentic Anda.
Jelajahi contoh agen dan alat di Agent Garden.
Bangun agen menggunakan Agent Development Kit (ADK).
Deploy agen ke Google Cloud.
Menghosting agen A2A di Cloud Run.
Menghosting server MCP di Cloud Run.
Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.
Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.

Kontributor

Penulis: Kumar Dhanagopal | Cross-Product Solution Developer

Kontributor lainnya:

Alan Blount | Product Manager
Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
Holt Skinner | Developer Advocate
Jack Wotherspoon | Developer Advocate
Joe Shirey | Cloud Developer Relations Manager
Megan O'Keefe | Developer Advocate
Samantha He | Technical Writer
Shir Meir Lador | Developer Relations Engineering Manager
Victor Dantas | Gen AI Field Solutions Architect
Vlad Kolesnikov | Developer Relations Engineer