Um Gemini in einer GDC-Umgebung (Google Distributed Cloud) ohne Internetverbindung zu aktivieren, müssen Infrastrukturbetreiber zuerst das erforderliche Netzwerk und die erforderliche Hardware konfigurieren. Weitere Informationen zu Zielgruppen in GDC finden Sie unter Dokumentationszielgruppen.
Dieser Leitfaden enthält eine umfassende Schritt-für-Schritt-Anleitung für IOs zum Installieren, Bereitstellen und Einsetzen von Gemini-Diensten in einer GDC-Umgebung. Die beschriebenen Verfahren gelten für Organisationen der Version 2. Die Einhaltung dieser Richtlinien ist entscheidend für die Bereitstellung fortschrittlicher KI-Funktionen in einer sicheren, isolierten Umgebung.
Zuerst müssen Sie das Netzwerk für Gemini konfigurieren, da es im Vergleich zu regulären GDC-Bereitstellungen mehr Strom verbraucht. Bei dieser Konfiguration muss ein GPU-Pod mit der richtigen Switch- und Rack-Einrichtung eingerichtet werden. Für diese Netzwerkkonfiguration ist auch eine dynamische Erweiterung des GPU-Pods erforderlich.
Als Nächstes müssen Sie das Gemini-Modell manuell herunterladen und übertragen. Ein Google-Kontakt stellt die Download-URL bereit. Sie müssen das Modell-Image herunterladen, überprüfen und in die Air-Gap-Umgebung übertragen, in der Sie das Modell-Image extrahieren.
Nachdem das Gemini-Modell extrahiert wurde, können Sie es in GDC laden. Für diesen Vorgang sind ein vorhandener Speicher-Bucket und die erforderlichen Operatorrollen erforderlich. Laden Sie das Modell in einen Speicher-Bucket und dann die Container-Images mit dem Modell in die Container Registry.
Prüfungen vor der Bereitstellung
Sie müssen Gemini in GDC-Umgebungen in der Organisationsarchitektur v2 bereitstellen. Diese Architektur verwendet dedizierte Gemini-Organisationen, die mit Kundenorganisationen zusammenarbeiten, um KI-Funktionen bereitzustellen. Weitere Informationen zu Organisationsarchitekturen finden Sie unter Organisation.
Vor der Installation und Bereitstellung von Gemini müssen Sie die Bereitstellungsanforderungen erfüllen. Wenn diese Bedingungen nicht überprüft werden, kann es zu erheblichen Verzögerungen oder Installationsfehlern kommen. Die folgende Tabelle enthält eine Checkliste aller Voraussetzungen, die die Infrastruktur in der angegebenen Reihenfolge erfüllen muss:
| Step | Voraussetzung | Anforderung | Bestätigung und Hinweise | Abgeschlossen |
|---|---|---|---|---|
| 1. | GDC-Version | Bootstrap-Version 1.14.4 oder höher | Prüfen Sie die Bootstrap-Version für alle Organisationen, einschließlich der Stammorganisation. | |
| 2. | Organisation des Kunden | Mindestens eine Mandantenorganisation ist in mindestens einer Zone aktiv. | Kundenorganisation erstellen | |
| 3. | Minimale IAM-Rollen | Sie haben die erforderlichen Berechtigungen zum Erstellen von Organisationen und zum Bereitstellen von Gemini auf GDC. | IAM-Berechtigungen vorbereiten | |
| 4. | Bare-Metal-GPU-Server | Mindestens ein Bare Metal-GPU-Server mit der Maschinenklasse d3-highgpu1-256-gdc-metal ist vorhanden. |
Prüfen Sie, ob die Maschinenklasse verfügbar und bereit ist. Der Dell XE9680-Server bietet die erforderlichen H200-GPUs. Informationen zum Prüfen des Vorhandenseins eines GPU-Servers finden Sie unter Organisation mit IAC erstellen:
|
Gemini und Kundenorganisationen
Verwenden Sie die Organisationsarchitektur der Version 2 sowohl für Gemini- als auch für Kundenorganisationen. Ein klares Verständnis der verschiedenen Rollen, Komponenten und Interaktionen in dieser Architektur ist für eine erfolgreiche Bereitstellung und Nutzung unerlässlich. Weitere Informationen zu Organisationsarchitekturen in GDC finden Sie unter Organisationsübersicht.
In der folgenden Tabelle werden die wichtigsten Unterschiede zwischen Gemini und Kundenorganisationen zusammengefasst:
| Feature | Gemini-Organisation | Organisation des Kunden |
|---|---|---|
| Beschreibung | Die Organisationsressource, die für die Ausführung eines Gemini-Modellservers konfiguriert ist | Eine Standard-GDC-Mandantenorganisation, in der Nutzer ihre Arbeitslasten ausführen, auf die Plattforminfrastruktur zugreifen und Dienste nutzen |
| Gehostete Dienste |
|
Inference Gateway |
| Verantwortung des Managements | Google IOs | Von Google oder vom Kunden erstellte Auftragsbestätigungen |
| Berechtigungen für Arbeitslasten | Nur von Google genehmigte Drittanbieter-Arbeitslasten | Kundenarbeitslasten |
| Bereitstellungszonen | Eine einzelne, dedizierte Gemini-Zone | Dieselbe Gemini-Zone wie die Gemini-Organisation Sie kann auch in mehreren Zonen bereitgestellt werden. Weitere Informationen finden Sie unter Bereitstellungsmodell für mehrere Zonen für Gemini. |
| Zugriff auf Gemini-Dienste | – (Das Unternehmen bietet die Dienste an.) | Über das Inference Gateway |
Schlüsselkomponenten
Mehrere Komponenten arbeiten zusammen, um Gemini-Dienste bereitzustellen. Diese Komponenten werden auf die Gemini- und Kundenorganisationen verteilt.
Inference Gateway
Das Inference Gateway ist das Gemini-Frontend. Sie wird als Pod im Infrastrukturcluster der Organisation des Kunden ausgeführt und ist ausschließlich in der Gemini-Zone aktiv.
Alle Anfragen von Kundenarbeitslasten an Gemini-Modelle werden über dieses Gateway geleitet.
GenAI Router
Der GenAI-Router ist das Gemini-Backend. Sie wird als Pod im Infrastrukturcluster der Organisation der Gemini-Organisation ausgeführt und ist ausschließlich in der Gemini-Zone aktiv, ähnlich wie das Inference Gateway.
Seine Funktion besteht darin, Anfragen vom Inference Gateway zu empfangen und an die entsprechenden Modellserverinstanzen weiterzuleiten.
Modellserver
Der Modellserver ist für das Hosten und Ausführen der KI-Modelle verantwortlich, die Gemini auf GDC unterstützen. Diese Modelle umfassen das Gemini-Kernmodell und die zugehörigen Tokenizer-Modelle.
Dieser Server verwendet die H200-GPUs, die sich in den d3-highgpu1-256-gdc-metal-Bare-Metal-Maschinen in der Gemini-Organisation befinden.
Der Modellserver bietet folgende Funktionen:
- Load-Balancing: Wenn mehrere GPU-Sets verfügbar sind, können Inferenzanfragen verteilt werden, was den Durchsatz und die Ausfallsicherheit erhöht.
- Bereitstellung mehrerer Modelle: Es können verschiedene Gemini-Modelle gleichzeitig ausgeführt werden, was Flexibilität bei der Bereitstellung und Nutzung von Modellen bietet.
Bereitstellungsmodell für mehrere Zonen für Gemini
Wenn Funktionen für mehrere Zonen aktiviert sind, sind Organisationen von Natur aus globale Ressourcen. Das bedeutet, dass sie in allen Regionen innerhalb des Air-Gap-Universums zugänglich sind. GDC unterstützt die Erstellung asymmetrischer Organisationen, in denen die Ressourcen einer Organisation global zugänglich sein können, während die tatsächliche Bereitstellung, die Server, Speicher und Arbeitslasten umfasst, auf eine bestimmte Teilmenge von Zonen beschränkt ist.
Mit der benutzerdefinierten Ressource OrganizationZonalConfig wird die Konfiguration einer Organisation in den angegebenen Zonen definiert. Weitere Informationen zu Bereitstellungen in mehreren Zonen finden Sie in der Übersicht über mehrere Zonen.
Ein wichtiges Sicherheits- und Architekturprinzip für Gemini-Bereitstellungen ist, dass die Gemini-Organisation nur in einer einzigen Zone bereitgestellt werden darf. Die entsprechende Kundenorganisation, die mit ihr interagiert, kann jedoch in mehreren Zonen bereitgestellt werden. Diese Architektur ermöglicht es Kundenarbeitslasten in verschiedenen Zonen, auf die zentralisierten Gemini-Dienste zuzugreifen.