Testen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können. Tesen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können.

Google-Modelle

Vertex AI bietet eine wachsende Liste an Foundation Models, die Sie testen, bereitstellen und für den Einsatz in Ihren KI-basierten Anwendungen anpassen können. Foundation Models sind für bestimmte Anwendungsfälle optimiert und werden zu verschiedenen Preispunkten angeboten. Diese Seite fasst die Modelle zusammen, die in den verschiedenen APIs verfügbar sind. Außerdem erhalten Sie eine Anleitung zur Auswahl von Modellen für verschiedene Anwendungsfälle.

Weitere Informationen zu den verschiedenen KI-Modellen und APIs in Vertex AI finden Sie unter KI-Modelle und APIs kennenlernen.

Gemini-Modelle

In der folgenden Tabelle sind die in der Gemini API verfügbaren Modelle zusammengefasst:

Modellname	Beschreibung	Spezifikationen
Gemini 1.5 Flash (`gemini-1.5-flash`)	Multimodales Modell, das für kostengünstige Anwendungen mit hohem Volumen entwickelt wurde. Gemini 1.5 Flash bietet Geschwindigkeit und Effizienz zum Erstellen schneller, kostengünstiger Anwendungen, die keine Kompromisse bei der Qualität eingehen.	Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 1 M Maximale Ausgabetokens: 8.192 Maximale Größe des Rohbilds: 20 MB Maximale Größe des base64-codierten Bildes: 7 MB Maximale Bilder pro Prompt: 3.000 Maximale Videolänge: 1 Stunde Maximale Videos pro Prompt: 10 Maximale Audiolänge: ca. 8,4 Stunden Maximale Audio pro Prompt: 1 Maximale PDF-Größe: 30 MB Trainingsdaten: bis Mai 2024
Gemini 1.5 Pro (`gemini-1.5-pro`)	Multimodales Modell, das das Hinzufügen von Bild-, Audio-, Video- und PDF-Dateien in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Gemini 1.5 Pro unterstützt das Long-Context-Verstehen mit bis zu 1 Million Tokens.	Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 1 M Maximale Ausgabetokens: 8.192 Maximale Bilder pro Prompt: 3.000 Maximale Videolänge (nur Frames): ca. eine Stunde Maximale Videolänge (Frame und Audio): ca. 45 Minuten Maximale Anzahl von Videos pro Prompt: 10 Maximale Audiolänge: ca. 8,4 Stunden Maximale Audioanzahl pro Prompt: 1 Max. PDF-Größe: 30 MB Trainingsdaten: bis Mai 2024
Gemini 1.0 Pro (`gemini-1.0-pro`)	Das leistungsstärkste Modell mit Features für eine Vielzahl von reinen Textaufgaben. Unterstützt nur Text als Eingabe. Unterstützt die überwachte Abstimmung.	Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 32.760 Maximale Ausgabetokens: 8.192 Trainingsdaten: bis Februar 2023
Gemini 1.0 Pro Vision (`gemini-1.0-pro-vision`)	Das leistungsstärkste Bild-/Video-Understanding-Modell für eine Vielzahl von Anwendungen. Unterstützt Text, Bilder und Video als Eingaben.	Maximale Gesamtzahl der Tokens (Eingabe und Ausgabe): 16.384 Maximale Ausgabetokens: 2.048 Maximale Bilder pro Prompt: 16 Maximale Videolänge: 2 Minuten Maximale Videos pro Prompt: 1 Trainingsdaten: bis Februar 2023
Gemini 1.0 Ultra (GA mit Zulassungsliste)	Das leistungsstärkste Textmodell von Google, das für komplexe Aufgaben wie Anleitung, Code und Logik optimiert ist. Unterstützt nur Text als Eingabe.	Maximale Anzahl eingegebener Tokens: 8.192 Maximale Anzahl ausgegebener Tokens: 2.048
Gemini 1.0 Ultra Vision (GA mit Zulassungsliste)	Das leistungsstärkste multimodale Vision-Modell von Google, das für die Unterstützung gemeinsamer Text-, Bild- und Videoeingaben optimiert ist.	Maximale Anzahl eingegebener Tokens: 8.192 Maximale Anzahl ausgegebener Tokens: 2.048

Gemini-Sprachunterstützung

Gemini-Modelle unterstützen die folgenden Sprachen:
Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).

Einbettungsmodelle

In der folgenden Tabelle sind die in der Embeddings API verfügbaren Modelle zusammengefasst.

Modellname	Beschreibung	Spezifikationen
Einbettung für Text (`textembedding-gecko@001, textembedding-gecko@002, textembedding-gecko@003, text-embedding-004`)	Gibt Einbettungen für englische Texteingaben zurück. Unterstützt die überwachte Abstimmung von "text-embedding-gecko"-Modellen, nur auf Englisch.	Maximale Tokeneingabe: 3.072 (textembedding-gecko@001), 2.048 (andere). Einbettungsdimension: `text-embedding-004`: <=768 Sonstige: 768.
Einbettungen für mehrsprachigen Text `(textembedding-gecko-multilingual@001, text-multilingual-embedding-002)`	Gibt Einbettungen für Texteingaben von über 100 Sprachen zurück Unterstützt die überwachte Abstimmung des `text-multilingual-embedding-002`-Modells. Unterstützt über 100 Sprachen	Maximale Tokeneingabe: 2.048 Einbettungsdimension: `text-multilingual-embedding-002`: <=768 Andere: 768
Einbettungen für multimodale Konfigurationen `(multimodalembedding)`	Gibt Einbettungen für Text-, Bild- und Videoeingaben zurück, um Inhalte aus verschiedenen Modellen zu vergleichen. Konvertiert Text, Bilder und Videos in denselben Vektorbereich. Video unterstützt nur 1408-Dimensionen. nur in englischer Sprache verfügbar.	Maximale Tokeneingabe: 32, Maximale Bildgröße: 20 MB, maximale Videolänge: 2 Minuten, Einbettungsdimension: 128, 256, 512 oder 1408 für Text+Bildeingabe, 1408 für Videoeingabe

Sprachunterstützung für Einbettungen

Mehrsprachige Texteinbettungsmodelle unterstützen die folgenden Sprachen:
Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengalisch, Bulgarisch, Burmesisch, Katalanisch, Cebuano, Plughewa, Chinesisch, Korsesisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Griechisch, Gujarati, Haitianisches Kreolisch, Hausa, Hawaii, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaiisch, Malayalam, Maltesisch, Maori, Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtunisch, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch, Serbisch, Shona, Sindhi, Singhalesisch, Slowakisch, Slowenisch, Somali, Sotho,{ 101} Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.

Imagen-Modell

In der folgenden Tabelle sind die in der Imagen API verfügbaren Modelle zusammengefasst:

Modellname	Beschreibung	Spezifikationen
Imagen 2 (`imagegeneration@006)`	Dieses Modell unterstützt die Bilderstellung und -bearbeitung, um in Sekundenschnelle hochwertige Bilder zu erstellen. Die Bearbeitungsfunktion unterstützt das Entfernen und Einfügen von Objekten, das Übermalen und die Bearbeitung von Produkten	Maximale Bildausgabe: vier Seitenverhältnis (für die Generierung): 1:1, 9:16, 16:9, 3:4, 4:3 Auflösung: ~1.500 Pixel (variiert je nach Seitenverhältnis)

Imagen-Sprachunterstützung

Das Imagen-Modell unterstützt die folgenden Sprachen:
Englisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch.

Vervollständigungsmodelle für Code

In der folgenden Tabelle sind die in den Codey APIs verfügbaren Modelle zusammengefasst:

Modellname	Beschreibung	Spezifikationen
Codey für Codegenerierung (`code-bison`)	Ein Modell, das zur Generierung von Code auf Basis einer Beschreibung des gewünschten Codes in natürlicher Sprache optimiert ist Es kann beispielsweise einen Einheitentest für eine Funktion generieren. Unterstützt die überwachte Abstimmung	Maximale Eingabetokens: 6.144 Maximale Ausgabetokens: 1.024
Codey für Code Generierung 32.000 (`code-bison-32k`)	Ähnliche Funktion wie Code-bison, aber mit längerem Kontextfenster Unterstützt die überwachte Abstimmung	Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192
Codey für Codechat (`codechat-bison`)	Ein Modell, das für Chatbot-Unterhaltungen zur Hilfeleistung bei codebezogenen Fragen optimiert ist. Unterstützt die überwachte Abstimmung	Maximale Eingabetokens: 6.144 Maximale Ausgabetokens: 1.024
Codey for Code Chat 32.000 (`codechat-bison-32k`)	Ähnliche Funktion wie Codechat-bison, aber mit längerem Kontextfenster Unterstützt die überwachte Abstimmung	Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192
Codey für Codevervollständigung (`code-gecko`)	Ein Modell, das optimiert wurde, um eine Codevervollständigung auf Grundlage des Kontextes im geschriebenen Code vorzuschlagen.	Maximale Eingabetokens: 2.048 Maximale Ausgabetokens: 64

MedLM-Modelle

In der folgenden Tabelle sind die in der MedLM API verfügbaren Modelle zusammengefasst:

Modellname	Beschreibung	Spezifikationen
MedLM-medium (`medlm-medium`)	Eine Reihe von Modellen für den medizinischen Bereich, die HIPAA-Compliance unterstützen. Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente.	Maximale Tokens (Eingabe + Ausgabe): 32.768 Maximale Ausgabetokens: 8.192
MedLM-large (`medlm-large`)	Eine hochwertigere Variante von MedLM.	Maximale Eingabetokens: 8.192 Maximale Ausgabetokens: 1.024

MedLM-Sprachunterstützung

Das MedLM-Modell unterstützt die englische Sprache.

Alle Modelle in Model Garden untersuchen

Model Garden ist eine Plattform, mit der Sie Vertex AI ermitteln, testen, anpassen und bereitstellen sowie OSS-Modelle und -Assets auswählen können. Informationen zu den in Vertex AI verfügbaren generativen KI-Modellen und APIs finden Sie in der Model Console in der Google Cloud Console.

Zu Model Garden

Weitere Informationen zu Model Garden, einschließlich der verfügbaren Modelle und Funktionen, finden Sie unter KI-Modelle in Model Garden entdecken.

Wie geht es weiter?

Wagen Sie sich an eine Kurzeinführung mit Generative AI Studio oder der Vertex AI API.
Weitere Informationen zum Testen von Text-Prompts
Informationen zum Testen von Chat-Prompts
Vortrainierte Modelle in Model Garden untersuchen.
Foundation Model optimieren
Weitere Informationen zu Best Practices für verantwortungsvolle KI und den Sicherheitsfiltern von Vertex AI.