Vertex AI bietet eine wachsende Liste an Foundation Models, die Sie testen, bereitstellen und für den Einsatz in Ihren KI-basierten Anwendungen anpassen können. Foundation Models sind für bestimmte Anwendungsfälle optimiert und werden zu verschiedenen Preispunkten angeboten. Auf dieser Seite werden die Modelle zusammengefasst, die in den verschiedenen APIs verfügbar sind, und Sie erfahren, welche Modelle nach Anwendungsfall ausgewählt werden können.
Weitere Informationen zu allen KI-Modellen und APIs in Vertex AI finden Sie unter KI-Modelle und APIs.
Grundlagenmodell-APIs
Vertex AI hat die folgenden APIs für Foundation Models:
- Gemini API (multimodale Daten, Text, Code und Chat)
- PaLM API (Text, Chat und Einbettungen)
- Codey APIs (Codegenerierung, Codechat und Codevervollständigung)
- Imagen API (Generierung von Bildern, Bildbearbeitung, Bildunterschriften, Visual Question Answering und multimodale Einbettung)
Gemini API-Modelle
In der folgenden Tabelle sind die in der Gemini API verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Modellattribute | Unterstützung der Feinabstimmung |
---|---|---|---|
Gemini 1.0 Pro ( gemini-1.0-pro ) |
Entwickelt für Natural Language-Aufgaben, Text- und Code-Chats in mehreren Schritten und die Codegenerierung. Verwenden Sie Gemini 1.0 Pro für Prompts, die nur Text enthalten. | Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 32.760 Maximale Ausgabetokens: 8.192 Trainingsdaten: bis Februar 2023 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
Multimodales Modell, das das Hinzufügen von Bildern und Videos in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Multimodale Prompts für Gemini 1.0 Pro Vision verwenden. | Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 16.384 Maximale Ausgabetokens: 2.048 Maximale Bildgröße: Kein Limit Maximale Anzahl von Bildern pro Prompt: 16 Maximale Videolänge: 2 Minuten Maximale Anzahl von Videos pro Prompt: 1 Trainingsdaten: bis Februar 2023 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
Gemini 1.0 Ultra (GA mit Zulassungsliste) | Das leistungsstärkste multimodale Modell von Google, das für komplexe Aufgaben wie Anleitung, Code und Logik optimiert ist und mehrere Sprachen unterstützt. Gemini 1.0 Ultra ist für eine ausgewählte Gruppe von Kunden allgemein verfügbar. | Maximale Tokeneingabe: 8.192 Maximale Tokenausgabe: 2.048 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
Gemini 1.0 Ultra Vision (GA mit Zulassungsliste) | Das leistungsstärkste multimodale Vision-Modell von Google, das für die Unterstützung von Text, Bildern, Videos und Multi-Turn-Unterhaltungen optimiert ist. Gemini 1.0 Ultra Vision ist für eine ausgewählte Gruppe von Kunden allgemein verfügbar. | Maximale Tokeneingabe: 8.192 Maximale Tokenausgabe: 2.048 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
Gemini 1.5 Pro (private Vorschau) | Das mittelgroße multimodale Modell von Google, das für die Skalierung für eine Vielzahl von Aufgaben optimiert ist. Gemini 1.5 Pro unterstützt das Long-Context-Verstehen mit bis zu 1 Million Tokens. | Maximale Tokeneingabe: 1.000.000 Maximale Tokenausgabe: 8.192 Maximale Bilder: 300 Maximale Videoframes: 3.800 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
PaLM-API-Modelle
In der folgenden Tabelle sind die in der PaLM API verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Modellattribute | Unterstützung der Feinabstimmung |
---|---|---|---|
PaLM 2 für Text ( text-bison ) |
Feinabstimmung der Natural Language-Anleitung und eignet sich für eine Vielzahl von Sprachaufgaben wie Klassifizierung, Zusammenfassung und Extraktion. | Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 1.024 Trainingsdaten: bis Februar 2023 |
Beaufsichtigt: Ja RLHF: Ja Destillation: Nein |
PaLM 2 für Text (text-unicorn ) |
Das erweiterte Textmodell in der PaLM-Modellfamilie zur Verwendung mit komplexen Natural Language-Aufgaben. | Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 1.024 Trainingsdaten: bis Februar 2023 |
Überwacht: Nein RLHF: Nein Destillation: Ja (Vorschau) |
PaLM 2 for Text 32k ( text-bison-32k ) |
Optimiert, um Anweisungen in natürlicher Sprache zu folgen, und für eine Vielzahl von Sprachaufgaben geeignet. | Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 Trainingsdaten: Bis August 2023 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
PaLM 2 für Chat ( chat-bison ) |
Bereit für Anwendungsfälle mit Multi-Turn-Unterhaltungen. | Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 2.048 Trainingsdaten: bis Februar 2023 Maximale Anzahl der Schritte: 2.500 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
PaLM 2 für Google Chat 32.000 ( chat-bison-32k ) |
Bereit für Anwendungsfälle mit Multi-Turn-Unterhaltungen. | Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 Trainingsdaten: Bis August 2023 Maximale Anzahl der Schritte: 2.500 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
Einbettungen für Text ( textembedding-gecko ) |
Gibt Modelleinbettungen für Texteingaben zurück. | 3.072 Eingabe-Tokens, gibt 768-dimensionalen Vektoreinbettungen aus. |
Beaufsichtigt: Ja RLHF: Nein Destillation: Nein |
Einbettungen für mehrsprachigen Text ( textembedding-gecko-multilingual ) |
Gibt Modelleinbettungen für Texteingaben zurück; es werden über 100 Sprachen unterstützt | 3.072 Eingabe-Tokens, gibt 768-dimensionalen Vektoreinbettungen aus. |
Überwacht: Ja
(Vorschau) RLHF: Nein Destillation: Nein |
Codey APIs-Modelle
In der folgenden Tabelle sind die in der Codey APIs verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Modellattribute | Unterstützung der Feinabstimmung |
---|---|---|---|
Codey für Codegenerierung ( code-bison ) |
Ein Modell, das zur Generierung von Code auf Basis einer Beschreibung des gewünschten Codes in natürlicher Sprache optimiert ist Es kann beispielsweise einen Einheitentest für eine Funktion generieren. | Maximale Eingabetokens: 6144 Maximale Ausgabetokens: 1.024 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
Codey für Codegenerierung 32.000 ( code-bison-32k ) |
Ein Modell, das zur Generierung von Code auf Basis einer Beschreibung des gewünschten Codes in natürlicher Sprache optimiert ist Es kann beispielsweise einen Einheitentest für eine Funktion generieren. | Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
Codey für Codechat ( codechat-bison ) |
Ein Modell, das für Chatbot-Unterhaltungen zur Hilfeleistung bei codebezogenen Fragen optimiert ist. | Maximale Eingabetokens: 6144 Maximale Ausgabetokens: 1.024 |
Beaufsichtigt: Ja RLHF: Nein Destillation: Nein |
Codey for Code Chat 32.000 ( codechat-bison-32k ) |
Ein Modell, das für Chatbot-Unterhaltungen zur Hilfeleistung bei codebezogenen Fragen optimiert ist. | Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 |
Überwacht: Ja RLHF: Nein Destillation: Nein |
Codey für Codevervollständigung ( code-gecko ) |
Ein Modell, das optimiert wurde, um eine Codevervollständigung auf Grundlage des Kontextes im geschriebenen Code vorzuschlagen. | Maximale Eingabetokens: 2.048 Maximale Ausgabetokens: 64 |
Überwacht: Nein RLHF: Nein Destillation: Nein |
Imagen API-Modelle
In der folgenden Tabelle sind die in der Imagen API verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Modellattribute | Unterstützung der Feinabstimmung |
---|---|---|---|
Imagen für die Bildgenerierung ( imagegeneration ) | Dieses Modell unterstützt die Bilderstellung und kann in Sekundenschnelle hochwertige visuelle Assets generieren. | Maximale Anfragen pro Minute und Projekt: 100 Maximale Bilder generiert: 8 Maximales Basis-Image (Bearbeiten/Hochskalieren): 10 MB Generierte Bildauflösung: 1.024 x 1.024 Pixel |
Überwacht: Nein RLHF: Nein |
Einbettungen für multimodal ( multimodalembedding ) | Dieses Modell generiert Vektoren auf Basis der von Ihnen bereitgestellten Eingabe, die eine Kombination aus Bild und Text enthalten kann. | Maximale Anfragen pro Minute und Projekt: 120 Maximale Textlänge: 32 Tokens Sprache: Englisch Maximale Bildgröße: 20 MB |
Überwacht: Nein RLHF: Nein |
Bilduntertitelung ( imagetext ) | Das Modell, das Bilduntertitel unterstützt. Dieses Modell generiert aus einem von Ihnen bereitgestellten Bild einen Untertitel in der von Ihnen angegebenen Sprache. | Maximale Anfragen pro Minute und Projekt: 500 Sprachen: Deutsch, Englisch, Französisch, Italienisch, Spanisch Maximale Bildgröße: 10 MB Maximale Anzahl von Untertiteln: 3 |
Überwacht: Nein RLHF: Nein |
Visual Question Answering - VQA ( imagetext ) | Ein Modell, das Bildfragen und Antworten unterstützt. | Maximale Anfragen pro Minute und Projekt: 500 Sprachen: Englisch Maximale Bildgröße: 10 MB Maximale Anzahl von Antworten: 3 |
Überwacht: Nein RLHF: Nein |
MedLM API-Modelle
In der folgenden Tabelle sind die in der MedLM API verfügbaren Modelle zusammengefasst:
Modellname | Beschreibung | Modellattribute | Unterstützung der Feinabstimmung |
---|---|---|---|
MedLM-medium (medlm-medium ) | Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden. Mit diesen Modellen können Gesundheitskräfte medizinische Fragen und Antworten (Fragen und Antworten) beantworten sowie Gesundheits- und medizinische Dokumente zusammenfassen. | Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192 Sprachen: Englisch |
Überwacht: Nein RLHF: Nein |
MedLM-large (medlm-large ) | Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden. Mit diesen Modellen können Gesundheitskräfte medizinische Fragen und Antworten (Fragen und Antworten) beantworten sowie Gesundheits- und medizinische Dokumente zusammenfassen. | Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 1.024 Sprachen: Englisch |
Überwacht: Nein RLHF: Nein |
Sprachunterstützung
Die Vertex AI PaLM API und die Vertex AI Gemini API sind für die folgenden Sprachen allgemein verfügbar:
- Arabisch (
ar
) - Bengalisch (
bn
) - Bulgarisch (
bg
) - Chinesisch, vereinfacht und traditionell (
zh
) - Kroatisch (
hr
) - Tschechisch (
cs
) - Dänisch (
da
) - Niederländisch (
nl
) - Englisch (
en
) - Estnisch (
et
) - Finnisch (
fi
) - Französisch (
fr
) - Deutsch (
de
) - Griechisch (
el
) - Hebräisch (
iw
) - Hindi (
hi
) - Ungarisch (
hu
) - Indonesisch (
id
) - Italienisch (
it
) - Japanisch (
ja
) - Koreanisch (
ko
) - Lettisch (
lv
) - Litauisch (
lt
) - Norwegisch (
no
) - Polnisch (
pl
) - Portugiesisch (
pt
) - Rumänisch (
ro
) - Russisch (
ru
) - Serbisch (
sr
) - Slowakisch (
sk
) - Slowenisch (
sl
) - Spanisch (
es
) - Swahili (
sw
) - Schwedisch (
sv
) - Thailändisch (
th
) - Türkisch (
tr
) - Ukrainisch (
uk
) - Vietnamesisch (
vi
)
Wenn Sie Zugriff auf andere Sprachen benötigen, wenden Sie sich an Ihren Google Cloud-Ansprechpartner.
Alle Modelle in Model Garden entdecken
Model Garden ist eine Plattform, mit der Sie Vertex AI ermitteln, testen, anpassen und bereitstellen sowie OSS-Modelle und -Assets auswählen können. Informationen zu den in Vertex AI verfügbaren generativen KI-Modellen und APIs finden Sie in der Model Console in der Google Cloud Console.
Weitere Informationen zu Model Garden, einschließlich der verfügbaren Modelle und Funktionen, finden Sie unter KI-Modelle in Model Garden entdecken.
Wie geht es weiter?
- Wagen Sie sich an eine Kurzeinführung mit Generative AI Studio oder der Vertex AI API.
- Weitere Informationen zum Testen von Text-Prompts
- Informationen zum Testen von Chat-Prompts
- Vortrainierte Modelle in Model Garden entdecken
- Foundation Model optimieren
- Verantwortungsbewusste Best Practices für KI und Sicherheitsfilter von Vertex AI