Halaman ini diterjemahkan oleh Cloud Translation API.

Infrastruktur RAG untuk AI generatif menggunakan Google Agentspace dan Vertex AI

Last reviewed 2025-09-11 UTC

Dokumen ini memberikan arsitektur referensi yang dapat Anda gunakan untuk mendesain infrastruktur aplikasi AI generatif dengan retrieval-augmented generation (RAG) menggunakan Google Agentspace dan Vertex AI. Arsitektur referensi ini menunjukkan cara menggunakan layanan terkelola dan men-deploy satu agen AI untuk memfasilitasi alur data RAG end-to-end. Google Agentspace berfungsi sebagai platform terpadu untuk orkestrasi agen di seluruh perusahaan. Vertex AI mempercepat pengembangan dan deployment agen kustom serta menyediakan penyimpanan data terkelola untuk memfasilitasi pengambilan data yang efisien untuk RAG.

Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator aplikasi AI generatif. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep AI, machine learning (ML), dan model bahasa besar (LLM). Dokumen ini tidak memberikan panduan tentang cara mendesain dan mengembangkan aplikasi AI generatif. Untuk mengetahui informasi tentang cara mendesain aplikasi, lihat Mengembangkan aplikasi AI generatif.

Arsitektur

Diagram berikut menunjukkan tampilan tingkat tinggi arsitektur yang disajikan dalam dokumen ini:

Tampilan secara umum dari alur penyerapan dan penyaluran data dalam arsitektur.

Arsitektur pada diagram sebelumnya memiliki dua subsistem: penyerapan dan penyajian data.

Subsistem penyerapan data menyerap dan menyiapkan data dari sumber eksternal untuk digunakan dalam RAG. Subsistem menghasilkan embedding untuk data yang di-ingest dan menggunakannya untuk membuat serta memelihara indeks vektor yang dapat ditelusuri dalam datastore terkelola.
Subsistem inferensi berisi layanan frontend dan backend aplikasi AI generatif.
- Layanan frontend menangani alur kueri-respons dengan pengguna aplikasi dan meneruskan kueri ke layanan backend.
- Layanan backend menggunakan Google Agentspace dan Vertex AI untuk membangun dan men-deploy agen AI Anda guna mengatur proses RAG. Proses ini menggunakan data vektor yang diindeks untuk menghasilkan respons yang memiliki rujukan kontekstual dan mematuhi filter keamanan AI Bertanggung Jawab.

Diagram berikut menunjukkan tampilan mendetail arsitektur:

Tampilan mendetail tentang alur penyerapan dan penyaluran data dalam arsitektur.

Bagian berikut menjelaskan aliran data dalam setiap subsistem pada diagram arsitektur sebelumnya.

Subsistem penyerapan data

Subsistem penyerapan data menyerap data dari sumber eksternal dan menyiapkan data untuk RAG. Berikut adalah langkah-langkah dalam alur penyerapan dan penyiapan data:

Data engineer mengupload data dari sumber eksternal ke bucket Cloud Storage. Sumber eksternal dapat berupa aplikasi, database, atau layanan streaming.
Setelah selesai, Cloud Storage memublikasikan pesan ke topik Pub/Sub.
Topik Pub/Sub memicu tugas pemrosesan untuk dijalankan di Cloud Run Function.
Fungsi Cloud Run memproses data mentah dengan membuat dan menyimpan metadata sebagai file JSON Lines (JSONL). File JSONL disimpan ke bucket Cloud Storage terpisah.
Setelah selesai, fungsi Cloud Run memublikasikan pesan ke topik Pub/Sub.
Topik Pub/Sub memicu tugas pemrosesan untuk dijalankan di penyimpanan data terkelola dalam Google Agentspace. Tugas pemrosesan menarik data dan metadata mentah yang diserap dari bucket Cloud Storage, lalu mengurai dan membagi data menjadi beberapa bagian untuk pengambilan yang efisien selama penayangan. Google Agentspace secara otomatis menghasilkan penyematan vektor tanpa memerlukan konfigurasi apa pun.

Subsistem inferensi

Subsistem inferensi menangani alur kueri-respons antara aplikasi AI generatif dan penggunanya. Berikut adalah langkah-langkah dalam alur penayangan:

Pengguna aplikasi mengirimkan kueri melalui salah satu layanan frontend Cloud Run. Anda dapat menyesuaikan layanan ini untuk berbagai pengalaman, seperti UI chatbot, halaman penelusuran, atau aplikasi seluler.
Layanan frontend menerima kueri, lalu meneruskan kueri ke layanan backend Cloud Run terpusat. Backend ini menyediakan satu endpoint terpadu untuk mendukung semua klien frontend yang berbeda. Layanan backend juga melakukan praproses yang diperlukan, yang dapat mencakup membuat filter untuk kueri penelusuran. Pendekatan ini membuat logika tetap transparan bagi frontend.
Layanan backend mengirimkan permintaan yang telah disiapkan ke Google Agentspace menggunakan endpoint Google Agentspace API untuk memulai alur kerja RAG.
Untuk memproses kueri, Google Agentspace menggunakan penelusuran perusahaan dan agen kustom untuk melakukan tugas berikut:
1. Buat sematan kueri pengguna.
2. Lakukan penelusuran semantik pada data yang diindeks di Managed datastore untuk menemukan informasi yang paling relevan.
3. Memperluas kueri asli dengan data yang diambil dari datastore terkelola untuk membuat perintah kontekstual yang mendetail.
4. Buat respons akhir yang didasarkan pada perintah yang telah diaugmentasi.
Google Agentspace mengirimkan respons yang dihasilkan ke layanan backend Cloud Run.
Layanan backend menampilkan respons akhir ke layanan frontend yang mengirim permintaan asli. Layanan frontend menampilkan jawaban kepada pengguna aplikasi.

Produk yang digunakan

Arsitektur referensi ini menggunakan produk Google Cloud berikut:

Google Agentspace: Platform terkelola yang berfungsi sebagai hub interaksi dan pendaftaran pusat untuk semua agen AI Anda dalam perusahaan, serta memungkinkan penemuan, tata kelola, dan penggunaan yang lancar oleh aplikasi.
Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
- Vertex AI Agent Engine: Platform yang memungkinkan Anda menjalankan, mengelola, dan menskalakan agen AI dalam produksi.
Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
Pub/Sub: Layanan pesan asinkron dan skalabel yang memisahkan layanan yang menghasilkan pesan dari layanan yang memproses pesan tersebut.
Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.

Kasus penggunaan

Arsitektur ini dirancang untuk skenario perusahaan di mana aplikasi AI generatif Anda memerlukan akses ke informasi terbaru dan memerlukan pemahaman kontekstual yang mendalam untuk memberikan respons yang akurat.

Arsitektur ini mencakup subsistem penyerapan data kustom untuk memenuhi dua persyaratan utama perusahaan:

Ketersediaan data real-time: Pipeline berbasis peristiwa memproses data baru segera setelah tersedia di organisasi Anda—misalnya, panduan produk baru atau laporan yang diperbarui. Pipeline ini juga membuat informasi tersedia di datastore terkelola Anda. Desain ini membantu mengurangi keusangan informasi karena memastikan bahwa ada penundaan minimal antara ketersediaan dan penggunaan data.
Penelusuran kontekstual yang ditingkatkan: Tugas pemrosesan kustom memungkinkan organisasi Anda menerapkan logika bisnisnya sendiri untuk memperkaya data dengan metadata yang berharga. Fungsi Cloud Run dapat memberi setiap dokumen tag dengan atribut tertentu seperti lini produk, penulis, lokasi, atau jenis dokumen. Metadata yang kaya ini membantu agen mempersempit penelusurannya dan memberikan jawaban yang lebih akurat dan kontekstual.

RAG adalah teknik efektif untuk meningkatkan kualitas output yang dihasilkan dari LLM. Bagian ini memberikan contoh kasus penggunaan yang dapat Anda gunakan untuk aplikasi AI generatif berkemampuan RAG.

Rekomendasi produk yang dipersonalisasi

Situs belanja online dapat menggunakan chatbot yang didukung LLM untuk membantu pelanggan menemukan produk atau mendapatkan bantuan terkait belanja. Pertanyaan dari pengguna dapat dilengkapi dengan menggunakan data historis tentang perilaku pembelian dan pola interaksi situs pengguna. Data tersebut dapat mencakup ulasan dan masukan pengguna yang disimpan di penyimpanan data tidak terstruktur atau metrik terkait penelusuran yang disimpan di data warehouse analisis web. Pertanyaan yang telah diubah tersebut kemudian dapat diproses oleh LLM untuk menghasilkan respons yang dipersonalisasi yang mungkin lebih menarik dan memikat bagi pengguna.

Sistem bantuan klinis

Dokter di rumah sakit perlu menganalisis dan mendiagnosis kondisi kesehatan pasien dengan cepat untuk membuat keputusan tentang perawatan dan pengobatan yang tepat. Aplikasi AI generatif yang menggunakan LLM medis seperti Med-PaLM dapat digunakan untuk membantu dokter dalam proses diagnosis klinis mereka. Respons yang dihasilkan aplikasi dapat didasarkan pada catatan pasien historis dengan mengontekstualisasikan perintah dokter dengan data dari database catatan kesehatan elektronik (EHR) rumah sakit atau dari pusat informasi eksternal seperti PubMed.

Penelitian hukum yang efisien

Riset hukum yang didukung teknologi AI generatif memungkinkan pengacara dengan cepat mengkueri sejumlah besar hukum dan hukum kasus untuk mengidentifikasi preseden hukum yang relevan atau meringkas konsep hukum yang kompleks. Hasil riset tersebut dapat ditingkatkan dengan melengkapi perintah pengacara menggunakan data yang diambil dari korpus kontrak eksklusif firma hukum, komunikasi hukum sebelumnya, dan catatan kasus internal. Pendekatan desain ini memastikan bahwa respons yang dihasilkan relevan dengan domain hukum yang menjadi spesialisasi pengacara.

Alternatif desain

Bagian ini menyajikan pendekatan desain alternatif yang dapat Anda pertimbangkan untuk aplikasi AI generatif berkemampuan RAG di Google Cloud.

Alternatif infrastruktur AI

Jika Anda memerlukan arsitektur yang menggunakan produk penelusuran vektor yang dikelola sepenuhnya, Anda dapat menggunakan Vertex AI dan Vector Search, yang menyediakan infrastruktur penayangan yang dioptimalkan untuk penelusuran vektor skala besar. Untuk mengetahui informasi selengkapnya, lihat Infrastruktur RAG untuk AI generatif menggunakan Vertex AI dan Penelusuran Vektor.

Jika Anda ingin memanfaatkan kemampuan penyimpanan vektor dari database yang terkelola sepenuhnya seperti AlloyDB untuk PostgreSQL atau Cloud SQL, lihat Infrastruktur RAG untuk AI generatif menggunakan Vertex AI dan AlloyDB untuk PostgreSQL. Google Cloud

Jika Anda ingin membangun dan men-deploy aplikasi AI generatif berkemampuan RAG dengan cepat menggunakan alat dan model open source seperti Ray, Hugging Face, dan LangChain, lihat Infrastruktur RAG untuk AI generatif menggunakan GKE dan Cloud SQL.

Opsi hosting aplikasi

Dalam arsitektur yang ditampilkan dalam dokumen ini, Cloud Run adalah host untuk aplikasi AI generatif dan pemrosesan data. Cloud Run adalah aplikasi yang berfokus pada developer dan terkelola sepenuhnya. Anda juga dapat men-deploy aplikasi ke Vertex AI Agent Engine, cluster GKE, atau ke VM Compute Engine.

Untuk memilih host aplikasi, pertimbangkan konsekuensi berikut antara fleksibilitas konfigurasi dan upaya pengelolaan:

Dengan opsi Cloud Run serverless, Anda men-deploy layanan kustom ke lingkungan terkelola yang telah dikonfigurasi sebelumnya. Untuk menghosting layanan frontend dan logika backend kustom untuk pra-pemrosesan permintaan, arsitektur ini memerlukan kemampuan untuk men-deploy aplikasi kustom.
Dengan opsi Vertex AI Agent Engine, Anda menggunakan platform terkelola sepenuhnya yang dirancang untuk penayangan agen. Vertex AI Agent Engine mengurangi overhead pengelolaan dan memastikan integrasi yang erat dengan Google Agentspace.
Dengan VM Compute Engine dan container GKE, Anda bertanggung jawab untuk mengelola resource komputasi yang mendasarinya, tetapi Anda memiliki fleksibilitas dan kontrol konfigurasi yang lebih besar.

Untuk mengetahui informasi selengkapnya tentang cara memilih layanan hosting aplikasi yang sesuai, lihat dokumen berikut:

Opsi infrastruktur lainnya

Untuk mengetahui informasi tentang opsi infrastruktur lainnya, model yang didukung, dan teknik perujukan yang dapat Anda gunakan untuk aplikasi AI generatif diGoogle Cloud, lihat Memilih model dan infrastruktur untuk aplikasi AI generatif Anda.

Pertimbangan desain

Bagian ini memberikan panduan untuk membantu Anda mengembangkan arsitektur AI generatif yang mendukung RAG di Google Cloud yang memenuhi persyaratan khusus Anda untuk keamanan dan kepatuhan, keandalan, biaya, dan performa. Panduan di bagian ini tidak lengkap. Bergantung pada persyaratan spesifik aplikasi AI generatif Anda serta produk dan fitur yang Anda gunakan, Anda mungkin perlu mempertimbangkan faktor desain dan kompromi tambahan. Google Cloud

Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.

Keamanan, privasi, dan kepatuhan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk merancang topologi di Google Cloud yang memenuhi persyaratan keamanan dan kepatuhan workload Anda.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Vertex AI mendukung Google Cloud kontrol keamanan yang dapat Anda gunakan untuk memenuhi persyaratan residensi data, enkripsi data, keamanan jaringan, dan transparansi akses. Untuk mengetahui informasi selengkapnya, lihat dokumentasi berikut: Kontrol keamanan untuk Vertex AI Kontrol keamanan untuk AI Generatif AI generatif dan tata kelola data Mengaktifkan transparansi akses untuk Google Agentspace Kontrol kepatuhan dan keamanan untuk Google Agentspace Google Agentspace Enterprise menghapus data yang diminta pengguna dalam waktu 60 hari. Untuk mengetahui informasi selengkapnya, lihat Penghapusan data di Google Cloud. Model AI generatif dapat menghasilkan respons yang berbahaya, terutama jika secara eksplisit diminta untuk memberikan respons tersebut. Untuk meningkatkan keamanan dan meminimalkan potensi penyalahgunaan, Anda dapat mengonfigurasi filter konten untuk bertindak sebagai penghalang terhadap respons berbahaya. Untuk informasi selengkapnya, lihat Filter konten dan keamanan.
Cloud Run	Secara default, Cloud Run mengenkripsi data menggunakan Google-owned and Google-managed encryption keys. Untuk melindungi container Anda dengan menggunakan kunci yang Anda kontrol, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK). Untuk informasi selengkapnya, lihat Menggunakan kunci enkripsi yang dikelola pelanggan. Untuk memastikan bahwa hanya image container resmi yang di-deploy ke Cloud Run, Anda dapat menggunakan Otorisasi Biner. Cloud Run membantu Anda memenuhi persyaratan residensi data. Fungsi Cloud Run Anda berjalan dalam region yang dipilih.
Cloud Storage	Secara default, Cloud Storage mengenkripsi data yang disimpannya menggunakan Google-owned and Google-managed encryption keys. Jika diperlukan, Anda dapat menggunakan CMEK atau kunci Anda sendiri yang Anda kelola dengan menggunakan metode pengelolaan eksternal seperti kunci enkripsi yang disediakan pelanggan (CSEK). Untuk mengetahui informasi selengkapnya, lihat Opsi enkripsi data. Cloud Storage mendukung dua metode untuk memberi pengguna akses ke bucket dan objek Anda: Identity and Access Management (IAM) dan access control list (ACL). Dalam sebagian besar kasus, sebaiknya Anda menggunakan IAM, yang memungkinkan Anda memberikan izin di tingkat bucket dan project. Untuk mengetahui informasi selengkapnya, lihat Ringkasan kontrol akses. Data yang Anda muat ke dalam subsistem penyerapan data melalui Cloud Storage mungkin mencakup data sensitif. Anda dapat menggunakan Sensitive Data Protection untuk menemukan, mengklasifikasikan, dan melakukan de-identifikasi data sensitif. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Perlindungan Data Sensitif dengan Cloud Storage. Cloud Storage membantu Anda memenuhi persyaratan residensi data. Cloud Storage menyimpan atau mereplikasi data dalam region yang Anda tentukan.
Pub/Sub	Secara default, Pub/Sub mengenkripsi semua pesan, termasuk pesan dalam penyimpanan dan dalam pengiriman, dengan menggunakan Google-owned and Google-managed encryption keys. Pub/Sub mendukung penggunaan CMEK untuk enkripsi pesan di lapisan aplikasi. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi enkripsi pesan. Jika Anda memiliki persyaratan residensi data, untuk memastikan bahwa data pesan disimpan di lokasi tertentu, Anda dapat mengonfigurasi kebijakan penyimpanan pesan.

Untuk mengetahui prinsip dan rekomendasi keamanan khusus workload AI dan ML, lihat Perspektif AI dan ML: Keamanan dalam Framework yang Dirancang dengan Baik.

Keandalan

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk membangun dan mengoperasikan infrastruktur yang andal untuk deployment Anda di Google Cloud.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Vertex AI memastikan residensi data saat tidak digunakan. Vertex AI menyimpan data sumber Anda, yang mencakup data untuk RAG di penyimpanan data terkelola, dalam Google Cloud lokasi yang telah Anda pilih. Pemisahan pemrosesan dari penyimpanan ini merupakan aspek mendasar tentang cara platform memberikan keandalan dan kepatuhan yang tinggi.
Cloud Run	Cloud Run adalah layanan regional yang menyimpan data secara sinkron di beberapa zona dalam satu region. Layanan akan otomatis melakukan load balancing pada traffic di seluruh zona. Jika terjadi pemadaman layanan zona, tugas Cloud Run akan terus berjalan dan data tidak akan hilang. Jika terjadi pemadaman layanan region, tugas Cloud Run akan berhenti berjalan hingga Google menyelesaikan pemadaman layanan tersebut. Setiap tugas atau task Cloud Run dapat gagal. Untuk menangani kegagalan tersebut, Anda dapat menggunakan coba ulang tugas dan checkpointing. Untuk mengetahui informasi selengkapnya, lihat Praktik terbaik percobaan ulang tugas dan checkpoint.
Cloud Storage	Anda dapat membuat bucket Cloud Storage di salah satu dari tiga jenis lokasi: regional, dual-region, atau multi-region. Untuk data di bucket regional, Cloud Storage mereplikasi data tersebut secara sinkron di beberapa zona dalam suatu region. Untuk ketersediaan yang lebih tinggi, Anda dapat menggunakan bucket dual-region atau multi-region, tempat Cloud Storage mereplikasi data secara asinkron di seluruh region. Pastikan pilihan Anda sesuai dengan persyaratan kepatuhan Anda.

Untuk prinsip dan rekomendasi keandalan yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Keandalan dalam Well-Architected Framework.

Pengoptimalan biaya

Bagian ini memberikan panduan untuk mengoptimalkan biaya penyiapan dan pengoperasian topologi Google Cloud yang Anda buat menggunakan arsitektur referensi ini.

Produk	Pertimbangan dan rekomendasi desain
Vertex AI	Model AI yang mendasari yang dipanggil agen dapat secara langsung memengaruhi biaya penggunaan agen tersebut. Harga dihitung berdasarkan jumlah token input dan output untuk setiap permintaan. Untuk mengetahui informasi selengkapnya, lihat kuota dan batas sistem AI Generatif di Vertex AI dan kalkulator hargaGoogle Cloud. Untuk mengetahui informasi tentang cara meminimalkan jumlah token untuk mengurangi biaya, lihat Mengoptimalkan panjang perintah dan output.
Cloud Run Functions	Saat membuat tugas Cloud Run, Anda menentukan jumlah memori dan CPU yang akan dialokasikan ke instance container. Untuk mengontrol biaya, mulailah dengan alokasi CPU dan memori default. Untuk meningkatkan performa, Anda dapat meningkatkan alokasi dengan mengonfigurasi batas CPU dan batas memori. Jika dapat memprediksi persyaratan CPU dan memori tugas Cloud Run, Anda dapat menghemat uang dengan diskon untuk penggunaan yang berkomitmen. Untuk mengetahui informasi selengkapnya, lihat Diskon abonemen Cloud Run.
Cloud Storage	Untuk bucket Cloud Storage yang Anda gunakan untuk memuat data ke dalam subsistem penyerapan data, pilih kelas penyimpanan yang sesuai berdasarkan persyaratan retensi data dan frekuensi akses workload Anda. Misalnya, Anda dapat memilih kelas penyimpanan Standard, dan menggunakan Object Lifecycle Management untuk mengontrol biaya penyimpanan. Object Lifecycle Management secara otomatis menurunkan kelas objek ke kelas penyimpanan yang lebih murah atau menghapus objek berdasarkan kondisi yang Anda tetapkan.

Untuk prinsip dan rekomendasi pengoptimalan biaya yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan biaya dalam Well-Architected Framework.

Pengoptimalan performa

Bagian ini menjelaskan pertimbangan dan rekomendasi desain untuk mendesain topologi di Google Cloud yang memenuhi persyaratan performa beban kerja Anda.

Produk	Pertimbangan dan rekomendasi desain
Google Agentspace	Untuk mengurangi latensi selama penayangan, streaming respons dengan mengirimkan respons model sebelum agen menghasilkan output lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat langsung memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya. Streaming meningkatkan respons yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif. Untuk mengetahui informasi selengkapnya, lihat Streaming jawaban.
Cloud Run	Sesuaikan alokasi memori dan CPU untuk instance Cloud Run berdasarkan persyaratan performa Anda. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi batas CPU untuk tugas dan Mengonfigurasi batas memori untuk layanan.
Cloud Storage	Untuk mengupload file besar, Anda dapat menggunakan metode yang disebut upload gabungan paralel. Dengan strategi ini, file besar dibagi menjadi beberapa bagian. Anda mengupload potongan ke Cloud Storage secara paralel, lalu Cloud Storage akan menyusun kembali data di Google Cloud. Upload komposit paralel dapat lebih cepat daripada operasi upload reguler jika Anda memiliki bandwidth jaringan dan kecepatan disk yang memadai. Namun, strategi ini memiliki beberapa keterbatasan dan implikasi biaya. Untuk mengetahui informasi selengkapnya, lihat Upload komposit paralel.

Untuk prinsip dan rekomendasi pengoptimalan performa yang khusus untuk workload AI dan ML, lihat Perspektif AI dan ML: Pengoptimalan performa dalam Well-Architected Framework.

Deployment

Untuk men-deploy arsitektur referensi ini, gunakan contoh Terraform yang tersedia di GitHub. Untuk mengetahui informasi selengkapnya, lihat Infrastruktur RAG untuk Aplikasi AI Generatif menggunakan Google Agentspace dan Vertex AI.

Langkah berikutnya

Pelajari cara Google Agentspace membagi dokumen untuk RAG.
Pelajari cara menghosting aplikasi dan agen AI di Cloud Run.
Pelajari praktik terbaik AI yang bertanggung jawab dan filter keamanan Vertex AI.
Pelajari praktik terbaik dengan model bahasa besar (LLM).
Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.
Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.

Kontributor

Penulis: Samantha He | Technical Writer

Kontributor lainnya:

Deepak Michael | Networking Specialist Customer Engineer
Kumar Dhanagopal | Cross-Product Solution Developer
Mark Schlagenhauf | Technical Writer, Networking
Victor Moreno | Product Manager, Cloud Networking
Yehia Elshater | Field Solutions Architect, Generative AI, Google Cloud
Paarth Mahajan | Network Specialist, Google Cloud