Ringkasan operator

Untuk mengaktifkan Gemini di lingkungan air-gapped Google Distributed Cloud (GDC), Operator Infrastruktur (IO) harus mengonfigurasi jaringan dan hardware yang diperlukan terlebih dahulu. Untuk mengetahui informasi selengkapnya tentang audiens di GDC, lihat Audiens dokumentasi.

Panduan ini memberikan petunjuk langkah demi langkah yang komprehensif bagi IO untuk menginstal, menyediakan, dan men-deploy layanan Gemini dalam lingkungan GDC. Prosedur yang diuraikan adalah untuk organisasi v2. Kepatuhan terhadap panduan ini sangat penting untuk men-deploy kemampuan AI canggih dalam setelan yang aman dan terisolasi.

Pertama, Anda harus mengonfigurasi jaringan untuk mengaktifkan Gemini, karena Gemini memerlukan konsumsi daya yang lebih besar dibandingkan dengan deployment GDC biasa. Konfigurasi ini melibatkan penyiapan pod GPU dengan penyiapan switch dan rak yang benar. Konfigurasi jaringan ini juga memerlukan perluasan dinamis pod GPU.

Selanjutnya, Anda harus mendownload dan mentransfer model Gemini secara manual. Kontak Google memberikan URL download. Anda harus mendownload, memverifikasi, dan mentransfer image model ke lingkungan yang terisolasi dari internet tempat Anda mengekstrak image model.

Terakhir, setelah model Gemini diekstrak, Anda dapat memuatnya di GDC. Operasi ini memerlukan bucket penyimpanan yang ada dan peran operator yang diperlukan. Muat model ke dalam bucket penyimpanan, lalu muat image container yang berisi model ke dalam container registry.

Pemeriksaan sebelum deployment

Anda harus men-deploy Gemini di lingkungan GDC pada arsitektur organisasi v2. Arsitektur ini menggunakan organisasi Gemini khusus yang bekerja sama dengan organisasi pelanggan untuk menyediakan kemampuan AI. Untuk mengetahui informasi selengkapnya tentang arsitektur organisasi, lihat Ringkasan organisasi.

Sebelum penginstalan dan penyediaan Gemini, Anda harus memenuhi persyaratan deployment. Kegagalan dalam memverifikasi kondisi ini dapat menyebabkan penundaan yang signifikan atau kegagalan penginstalan. Tabel berikut berisi checklist semua prasyarat yang harus dipenuhi infrastruktur dalam urutan yang diberikan:

Langkah Prasyarat Persyaratan Verifikasi dan catatan Selesai
1. Versi GDC Bootstrap versi 1.14.4 atau yang lebih baru Periksa versi bootstrap untuk semua organisasi, termasuk organisasi root.
2. Organisasi pelanggan Setidaknya ada satu organisasi tenant yang aktif dan berjalan di setidaknya satu zona Buat organisasi pelanggan.
3. Peran IAM minimum Anda memiliki izin yang diperlukan untuk membuat organisasi dan men-deploy Gemini di GDC Siapkan izin IAM.
4. Server GPU bare metal Setidaknya satu server GPU bare metal dengan class mesin d3-highgpu1-256-gdc-metal disediakan Pastikan class mesin tersedia dan siap. Server Dell XE9680 menyediakan GPU H200 yang diperlukan.

Lihat Membuat organisasi dengan IAC untuk memverifikasi keberadaan server GPU: Untuk mengetahui detail lengkap tentang konfigurasi jaringan untuk server GPU, lihat Menyiapkan jaringan untuk Gemini.

Gemini dan organisasi pelanggan

Gunakan arsitektur organisasi v2 untuk organisasi Gemini dan pelanggan. Pemahaman yang jelas tentang peran, komponen, dan interaksi yang berbeda dalam arsitektur ini sangat penting untuk keberhasilan deployment dan operasi. Untuk mengetahui informasi selengkapnya tentang arsitektur organisasi di GDC, lihat Ringkasan organisasi.

Tabel berikut merangkum perbedaan utama antara Gemini dan organisasi pelanggan:

Fitur Organisasi Gemini Organisasi pelanggan
Deskripsi Resource organisasi yang dikonfigurasi untuk menjalankan server model Gemini Organisasi tenant GDC standar tempat pengguna menjalankan workload, mengakses infrastruktur platform, dan menggunakan layanan
Layanan yang dihosting
  • Router GenAI
  • Server model dengan GPU H200
Gateway Inferensi
Tanggung jawab pengelolaan Google IOs IO Google atau pelanggan
Izin workload Hanya workload pihak ketiga yang disetujui Google Workload pelanggan
Zona deployment Satu zona Gemini khusus Zona Gemini yang sama dengan organisasi Gemini

Organisasi juga dapat di-deploy di lebih banyak zona. Untuk mengetahui informasi selengkapnya, lihat Model deployment multi-zona untuk Gemini.
Akses ke layanan Gemini T/A (Menyediakan layanan) Melalui Gateway Inferensi

Komponen utama

Beberapa komponen bekerja sama untuk memberikan layanan Gemini. Komponen ini didistribusikan antara organisasi Gemini dan pelanggan.

Gateway Inferensi

Inference Gateway adalah frontend Gemini. Pod ini berjalan sebagai pod dalam cluster infrastruktur organisasi dari organisasi pelanggan dan beroperasi secara eksklusif di zona Gemini.

Semua permintaan dari workload pelanggan ke model Gemini melewati gateway ini.

Router GenAI

GenAI Router adalah backend Gemini. Pod ini berjalan sebagai pod dalam cluster infrastruktur organisasi dari organisasi Gemini dan beroperasi secara eksklusif di zona Gemini, mirip dengan Inference Gateway.

Fungsinya adalah menerima permintaan dari Inference Gateway dan merutekannya ke instance server model yang sesuai.

Server model

Server model bertanggung jawab untuk menghosting dan mengeksekusi model AI yang mendukung Gemini di GDC. Model ini mencakup model Gemini inti dan model tokenizer yang bergantung padanya.

Server ini menggunakan GPU H200 yang ada di mesin bare metal d3-highgpu1-256-gdc-metal dalam organisasi Gemini.

Server model memiliki kemampuan berikut:

  • Load balancing: Dapat mendistribusikan permintaan inferensi jika lebih dari satu set GPU tersedia, sehingga meningkatkan throughput dan ketahanan.
  • Penyaluran multi-model: Dapat menjalankan berbagai model Gemini secara bersamaan, sehingga menawarkan fleksibilitas dalam deployment dan penggunaan model.

Model deployment multi-zona untuk Gemini

Jika kemampuan multi-zona diaktifkan, organisasi akan menjadi resource global secara inheren. Artinya, mereka dapat diakses di semua region dalam semesta yang terisolasi dari internet. GDC mendukung pembuatan organisasi asimetris, di mana resource organisasi dapat diakses secara global, sementara deployment sebenarnya yang sesuai dengan server, penyimpanan, dan workload dibatasi untuk subset zona tertentu.

Resource kustom OrganizationZonalConfig menentukan konfigurasi organisasi dalam zona yang ditentukan. Untuk mengetahui informasi selengkapnya tentang deployment multi-zona, lihat Ringkasan multi-zona.

Prinsip utama keamanan dan arsitektur untuk deployment Gemini adalah organisasi Gemini hanya boleh di-deploy di satu zona. Namun, organisasi pelanggan terkait yang berinteraksi dengannya dapat di-deploy di beberapa zona. Arsitektur ini memungkinkan beban kerja pelanggan di berbagai zona mengakses layanan Gemini terpusat.

Langkah berikutnya