Vertex AI unterstützt eine ausgewählte Liste von Open-Source-Modellen als verwaltete Modelle. Diese offenen Modelle können mit Vertex AI als Model as a Service (MaaS) verwendet werden und werden als verwaltete API angeboten. Wenn Sie ein verwaltetes offenes Modell verwenden, senden Sie Ihre Anfragen weiterhin an Vertex AI-Endpunkte. Verwaltete offene Modelle sind serverlos, sodass Sie keine Infrastruktur bereitstellen oder verwalten müssen.
Verwaltete offene Modelle können mithilfe von Model Garden gefunden werden. Sie können Modelle auch mit Model Garden bereitstellen. Weitere Informationen finden Sie unter KI-Modelle in Model Garden entdecken.
Offene Modelle
Die folgenden offenen Modelle werden als verwaltete APIs in Vertex AI Model Garden (MaaS) angeboten:
Modellname | Modalität | Beschreibung | Kurzanleitung |
---|---|---|---|
gpt-oss 120B | Sprache | Ein 120B-Modell, das bei Schlussfolgerungsaufgaben eine hohe Leistung bietet. | Modellkarte |
gpt-oss 20B | Sprache | Ein 20B-Modell, das für Effizienz und Bereitstellung auf Consumer- und Edge-Hardware optimiert ist. | Modellkarte |
Qwen3-Next-80B Thinking | Sprache, Code | Ein Modell aus der Modellfamilie Qwen3-Next, das auf die Lösung komplexer Probleme und tiefes logisches Denken spezialisiert ist. | Modellkarte |
Qwen3-Next-80B Instruct | Sprache, Code | Ein Modell aus der Modellfamilie Qwen3-Next, das auf die Ausführung bestimmter Befehle spezialisiert ist. | Modellkarte |
Qwen3 Coder | Sprache, Code | Ein Open-Weight-Modell, das für anspruchsvolle Softwareentwicklungsaufgaben entwickelt wurde. | Modellkarte |
Qwen3 235B | Sprache | Ein Open-Weight-Modell mit der Fähigkeit zum „hybriden Denken“, das zwischen methodischem Denken und schnellen Unterhaltungen wechseln kann. | Modellkarte |
DeepSeek-V3.1 | Sprache | Das Hybridmodell von DeepSeek, das sowohl den Denkmodus als auch den Nicht-Denkmodus unterstützt. | Modellkarte |
DeepSeek R1 (0528) | Sprache | Die aktuelle Version des DeepSeek R1-Modells von DeepSeek. | Modellkarte |
Llama 4 Maverick 17B-128E | Sprache, Vision | Das größte und leistungsstärkste Llama 4-Modell mit Funktionen für Programmierung, Reasoning und Bilder. Llama 4 Maverick 17B-128E ist ein multimodales Modell, das die Mixture-of-Experts-Architektur (MoE) und Early Fusion verwendet. | Modellkarte |
Llama 4 Scout 17B-16E | Sprache, Vision | Llama 4 Scout 17B-16E liefert für seine Größenklasse erstklassige Ergebnisse und übertrifft frühere Llama-Generationen sowie andere offene und proprietäre Modelle bei mehreren Benchmarks. Llama 4 Scout 17B-16E ist ein multimodales Modell, das die Mixture-of-Experts-Architektur (MoE) und Early Fusion verwendet. | Modellkarte |
Llama 3.3 | Sprache | Llama 3.3 ist ein anweisungsorientiertes Nur-Text-Modell mit 70 Milliarden Parametern, das im Vergleich zu Llama 3.1 70B und Llama 3.2 90B eine verbesserte Leistung bei Nur-Text-Anwendungen bietet. Außerdem erreicht Llama 3.3 70B bei einigen Anwendungen die Leistung von Llama 3.1 405B. | Modellkarte |
Llama 3.2 (Vorabversion) | Sprache, Vision | Ein mittelgroßes multimodales Modell mit 90 Milliarden Parametern, das Bildanalyse wie die Analyse von Diagrammen und Grafiken sowie die Bilduntertitelung unterstützt. | Modellkarte |
Llama 3.1 | Sprache |
Eine Sammlung mehrsprachiger LLMs, die für mehrsprachige Dialoganwendungsfälle optimiert sind und viele der verfügbaren Open-Source- und geschlossenen Chatmodelle bei gängigen Branchenbenchmarks übertreffen. Llama 3.1 405B ist allgemein verfügbar. Llama 3.1 8B und Llama 3.1 70B sind in der Vorabversion verfügbar. |
Modellkarte |
Die folgenden offenen Embedding-Modelle werden als verwaltete APIs in Vertex AI Model Garden (MaaS) angeboten:
Modellname | Beschreibung | Ausgabedimensionen | Maximale Sequenzlänge | Unterstützte Textsprachen | Kurzanleitung |
---|---|---|---|---|---|
multilingual-e5-small | Teil der E5-Familie von Texteinbettungsmodellen. Die kleine Variante enthält 12 Ebenen. | Bis zu 384 | 512 Tokens | Unterstützte Sprachen | Modellkarte |
multilingual-e5-large | Teil der E5-Familie von Texteinbettungsmodellen. Die große Variante enthält 24 Ebenen. | Bis zu 1.024 | 512 Tokens | Unterstützte Sprachen | Modellkarte |
Regionale und globale Endpunkte
Bei regionalen Endpunkten werden Anfragen von der von Ihnen angegebenen Region aus bearbeitet. Wenn Sie Anforderungen an den Datenstandort haben oder ein Modell den globalen Endpunkt nicht unterstützt, verwenden Sie die regionalen Endpunkte.
Wenn Sie den globalen Endpunkt verwenden, kann Google Ihre Anfragen in jeder Region verarbeiten und bereitstellen, die vom verwendeten Modell unterstützt wird. In einigen Fällen kann dies zu einer höheren Latenz führen. Der globale Endpunkt trägt dazu bei, die allgemeine Verfügbarkeit zu verbessern und Fehler zu reduzieren.
Bei Verwendung des globalen Endpunkts gibt es keinen Preisunterschied zu den regionalen Endpunkten. Die Kontingente für den globalen Endpunkt und die unterstützten Modellfunktionen können sich jedoch von denen der regionalen Endpunkte unterscheiden. Weitere Informationen finden Sie auf der entsprechenden Seite des Drittanbietermodells.
Globalen Endpunkt angeben
Wenn Sie den globalen Endpunkt verwenden möchten, legen Sie die Region auf global
fest.
Die Anfrage-URL für einen curl-Befehl hat beispielsweise das folgende Format:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Für das Vertex AI SDK ist ein regionaler Endpunkt die Standardeinstellung. Legen Sie die Region auf GLOBAL
fest, um den globalen Endpunkt zu verwenden.
Nutzung globaler API-Endpunkte einschränken
Um die Verwendung regionaler Endpunkte zu erzwingen, können Sie die Einschränkung der Organisationsrichtlinie constraints/gcp.restrictEndpointUsage
verwenden, um Anfragen an den globalen API-Endpunkt zu blockieren. Weitere Informationen finden Sie unter Endpunktnutzung einschränken.
Nutzern Zugriff auf offene Modelle gewähren
Damit Sie offene Modelle aktivieren und eine Prompt-Anfrage stellen können, muss ein Google Cloud-Administrator die erforderlichen Berechtigungen festlegen und bestätigen, dass die Organisationsrichtlinie die Verwendung der erforderlichen APIs zulässt.
Erforderliche Berechtigungen für die Verwendung offener Modelle festlegen
Die folgenden Rollen und Berechtigungen sind für die Verwendung offener Modelle erforderlich:
Sie benötigen die IAM-Rolle „Manager von Nutzer-Beschaffungsberechtigungen“ (Identity and Access Management). Nutzer, denen diese Rolle zugewiesen wurde, können Open-Source-Modelle in Model Garden aktivieren.
Sie benötigen die Berechtigung
aiplatform.endpoints.predict
. Diese Berechtigung ist in der IAM-Rolle „Vertex AI-Nutzer“ enthalten. Weitere Informationen finden Sie unter Vertex AI-Nutzer und Zugriffssteuerung.
Console
Um einem Nutzer die IAM-Rollen für Manager von Nutzer-Beschaffungsberechtigungen zuzuweisen, rufen Sie die Seite IAM auf.
Suchen Sie in der Spalte Hauptkonto das Nutzer-Hauptkonto, für das Sie den Zugriff auf offene Modelle aktivieren möchten, und klicken Sie dann in dieser Zeile auf Hauptkonto bearbeiten.
Klicken Sie im Bereich Zugriff bearbeiten auf
Weitere Rolle hinzufügen.Wählen Sie unter Rolle auswählen die Option Consumer Procurement Entitlement Manager aus.
Klicken Sie im Bereich Berechtigungen bearbeiten auf
Weitere Rolle hinzufügen.Wählen Sie unter Rolle auswählen die Option Vertex AI-Nutzer aus.
Klicken Sie auf Speichern.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Weisen Sie die Rolle „Manager von Nutzer-Beschaffungsberechtigungen“ zu, die zum Aktivieren offener Modelle in Model Garden erforderlich ist.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Erteilen Sie die Rolle „Vertex AI-Nutzer“, die die
aiplatform.endpoints.predict
-Berechtigung enthält, die zum Senden von Prompts erforderlich ist:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Ersetzen Sie
PRINCIPAL
durch die Kennung des Hauptkontos. Die Kennung hat das Formatuser|group|serviceAccount:email
oderdomain:domain
, z. B.user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
oderdomain:example.domain.com
.Es wird eine Liste von Richtlinienbindungen ausgegeben, die Folgendes enthält:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Weitere Informationen finden Sie unter Einzelne Rolle zuweisen und
gcloud projects add-iam-policy-binding
.
Organisationsrichtlinie für den Zugriff auf offene Modelle festlegen
Damit Sie offene Modelle aktivieren können, muss in Ihrer Organisationsrichtlinie die folgende API zugelassen sein: Cloud Commerce Consumer Procurement API – cloudcommerceconsumerprocurement.googleapis.com
Wenn Ihre Organisation eine Organisationsrichtlinie zum Einschränken der Dienstnutzung festlegt, muss ein Organisationsadministrator bestätigen, dass cloudcommerceconsumerprocurement.googleapis.com
durch Festlegen der Organisationsrichtlinie zulässig ist.
Wenn Sie eine Organisationsrichtlinie haben, die die Nutzung von Modellen in Model Garden einschränkt, muss die Richtlinie den Zugriff auf offene Modelle zulassen. Weitere Informationen finden Sie unter Zugriff auf Kontrollmodell verwalten.
Regulierungs-Compliance von Modellen
Die Zertifizierungen für Generative AI in Vertex AI gelten weiterhin, wenn offene Modelle als verwaltete API mit Vertex AI verwendet werden. Wenn Sie Details zu den Modellen selbst benötigen, finden Sie weitere Informationen in der jeweiligen Modellkarte oder Sie können sich an den jeweiligen Modellpublisher wenden.
Ihre Daten werden in der ausgewählten Region oder in mehreren Regionen für offene Modelle in Vertex AI gespeichert. Die Regionalisierung der Datenverarbeitung kann jedoch variieren. Eine detaillierte Liste der Verpflichtungen zur Datenverarbeitung für offene Modelle finden Sie unter Datenstandort für offene Modelle.
Kunden-Prompts und Modellantworten werden bei der Verwendung der Vertex AI API, einschließlich offener Modelle, nicht an Dritte weitergegeben. Google verarbeitet Kundendaten nur gemäß den Anweisungen des Kunden. Weitere Informationen finden Sie im Zusatz zur Verarbeitung von Cloud-Daten.