Generative KI-Modelle bereitstellen

Auf dieser Seite finden Sie eine Anleitung zum Bereitstellen eines generativen KI-Modells in einem Endpunkt für Onlinevorhersagen.

Model Garden prüfen

Wenn sich das Modell in Model Garden befindet, können Sie es bereitstellen, indem Sie auf Bereitstellen (für einige Modelle verfügbar) oder Notebook öffnen klicken.

Zu Model Garden

Andernfalls haben Sie folgende Möglichkeiten:

Vorhersagen mit NVIDIA NIM bereitstellen

NVIDIA Inference Microservices (NIM) sind vortrainierte und optimierte KI-Modelle, die als Mikrodienste bereitgestellt werden. Sie sollen die Bereitstellung leistungsstarker, produktionsreifer KI in Anwendungen vereinfachen.

NVIDIA NIM kann zusammen mit Artifact Registry und Vertex AI Prediction verwendet werden, um generative KI-Modelle für Onlinevorhersagen bereitzustellen.

Einstellungen für benutzerdefinierte Container

In diesem Abschnitt werden Felder in der containerSpec Ihres Modells beschrieben, die Sie beim Importieren von generativen KI-Modellen möglicherweise angeben müssen.

Sie können diese Felder mit der Vertex AI REST API oder dem Befehl gcloud ai models upload angeben. Weitere Informationen finden Sie unter Containerbezogene API-Felder.

sharedMemorySizeMb

Einige generative KI-Modelle benötigen mehr gemeinsam genutzten Speicher. Gemeinsam genutzter Speicher ist ein IPC-Mechanismus (Inter-Process Communication), der es mehreren Prozessen ermöglicht, auf einen gemeinsamen Speicherblock zuzugreifen und diesen zu bearbeiten. Die Standardgröße des gemeinsam genutzten Speichers beträgt 64 MB.

Einige Modellserver wie vLLM oder Nvidia Triton verwenden gemeinsam genutzten Speicher, um interne Daten während der Modellinferenzen im Cache zu speichern. Ohne ausreichend gemeinsam genutzten Speicher können einige Modellserver keine Vorhersagen für generative Modelle liefern. Die Größe des erforderlichen gemeinsam genutzten Speichers ist ein Implementierungsdetail Ihres Containers und Modells. Weitere Informationen finden Sie in der Dokumentation Ihres Modellservers.

Da gemeinsam genutzter Speicher auch für die GPU-übergreifende Kommunikation verwendet werden kann, kann die Verwendung von mehr gemeinsam genutzten Speichern die Leistung von Accelerators ohne NVLink-Funktionen (z. B. L4) verbessern, wenn der Modellcontainer eine GPU-übergreifende Kommunikation erfordert.

Informationen zum Angeben eines benutzerdefinierten Werts für den gemeinsam genutzten Speicher finden Sie unter Containerbezogene API-Felder.

startupProbe

Eine Startprüfung ist eine optionale Prüfung, mit der festgestellt wird, wann der Container gestartet wurde. Mit dieser Prüfung werden die Zustandsprüfung und die Aktivitätsprüfungen bis zum Start des Containers verzögert. So wird verhindert, dass langsam startende Container vorzeitig heruntergefahren werden.

Weitere Informationen finden Sie unter Systemdiagnosen.

healthProbe

Mit der Systemdiagnose wird geprüft, ob ein Container bereit ist, Traffic anzunehmen. Wenn keine Zustandsprüfung angegeben ist, verwendet Vertex AI die Standardsystemdiagnosen, bei denen eine HTTP-Anfrage an den Port des Containers gesendet und nach einer 200 OK-Antwort vom Modellserver gesucht wird.

Wenn Ihr Modellserver mit 200 OK antwortet, bevor das Modell vollständig geladen ist, was insbesondere bei großen Modellen möglich ist, dann ist die Systemdiagnose vorzeitig erfolgreich und Vertex AI leitet den Traffic an den Container weiter, bevor dieser fertig ist.

Geben Sie in diesen Fällen eine benutzerdefinierte Zustandsprüfung an, die erst dann erfolgreich ist, wenn das Modell vollständig geladen und bereit ist, Traffic anzunehmen.

Weitere Informationen finden Sie unter Systemdiagnosen.

Beschränkungen

Beachten Sie beim Bereitstellen von Modellen mit generativer KI die folgenden Einschränkungen:

  • Generative KI-Modelle können nur auf einem einzigen Computer bereitgestellt werden. Die Bereitstellung auf mehreren Hosts wird nicht unterstützt.
  • Bei sehr großen Modellen, die nicht in den größten unterstützten vRAM passen, z. B. Llama 3.1 405B, empfehlen wir, sie zu quantisieren.