Google-Modelle

Vertex AI bietet eine wachsende Liste an Foundation Models, die Sie testen, bereitstellen und für den Einsatz in Ihren KI-basierten Anwendungen anpassen können. Foundation Models sind für bestimmte Anwendungsfälle optimiert und werden zu verschiedenen Preispunkten angeboten. Diese Seite fasst die Modelle zusammen, die in den verschiedenen APIs verfügbar sind. Außerdem erhalten Sie eine Anleitung zur Auswahl von Modellen für verschiedene Anwendungsfälle.

Weitere Informationen zu den verschiedenen KI-Modellen und APIs in Vertex AI finden Sie unter KI-Modelle in Model Garden entdecken.

Gemini-Modelle

In der folgenden Tabelle sind die in der Gemini API verfügbaren Modelle zusammengefasst. Weitere Informationen zu API-Details finden Sie in der Gemini API-Referenz.

Wenn Sie ein Modell in der Google Cloud Console untersuchen möchten, wählen Sie die entsprechende Modellkarte im Model Garden aus.

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Gemini 1.5 Flash
Text, Code, Bilder, Audio, Video, Video mit Audio, PDF Text Bietet Geschwindigkeit und Effizienz für kostengünstige Apps mit hohem Volumen und hoher Qualität. Gemini 1.5 Flash-Modell testen
Gemini 1.5 Pro
Text, Code, Bilder, Audio, Video, Video mit Audio, PDF Text Unterstützt Text- oder Chat-Prompts für eine Text- oder Codeantwort.
 Unterstützt das Long-Context-Verstehen bis zum maximalen Eingabetokenlimit.
Gemini 1.5 Pro-Modell testen
Gemini 1.0 Pro
Text Text Das leistungsstärkste Modell für eine Vielzahl von reinen Textaufgaben. Zur Modellkarte „Gemini 1.0 Pro“
Gemini 1.0 Pro Vision
Text, Bilder, Audio, Video, Video mit Audio, PDF Text Das leistungsstärkste Bild-/Video-Understanding-Modell für eine Vielzahl von Anwendungen. Gemini 1.0 Pro Vision-Modell testen

Die folgenden Informationen enthalten Details zu den einzelnen Gemini-Modellen.

Gemini 1.5 Flash

Beschreibung

Ein multimodales Modell, das für kostengünstige Anwendungen mit hohem Volumen entwickelt wurde. Es bietet Geschwindigkeit und Effizienz zum Erstellen schneller, kostengünstiger Anwendungen, die keine Kompromisse bei der Qualität eingehen.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Ja (nur Texteingabe)
Abstimmung Nein
Systemanweisung Ja. Weitere Informationen finden Sie unter Systemanweisungen verwenden.
JSON-Unterstützung Ja
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Eingabetokens: 1.048.576
Max. Ausgabetokens: 8.192
Maximale Größe von Rohbildern: 20 MB
Maximale Größe eines Base64-codierten Bildes: 7 MB
Maximale Anzahl von Bildern pro Prompt: 3.000
Maximale Videolänge: 1 Stunde
Maximale Anzahl von Videos pro Prompt: 10
Maximale Audiolänge: etwa 8,4 Stunden
Maximale Audioinhalte pro Prompt: 1
Maximale PDF-Größe: 30 MB
Trainingsdaten: Bis Mai 2024

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Stabile Versionen

Gemini 1.5 Flash-Modell Veröffentlicht Einstellungsdatum Highlights der Modellversion
gemini-1.5-flash-002 24. September 2024 24. September 2025 Die allgemeine Modellqualität wurde verbessert, was sich in erheblichen Leistungssteigerungen in den folgenden Kategorien niederschlägt:
  • Faktualität und Reduzierung von Modellhalluzinationen.
  • Openbook-Fragen und -Antworten zu Anwendungsfällen für RAG
  • Befolgung von Anweisungen
  • Mehrsprachige Spracherkennung in 102 Sprachen, insbesondere in Koreanisch, Französisch, Deutsch, Spanisch, Japanisch, Russisch und Chinesisch.
  • SQL-Generierung
  • Audioverständnis
  • Verständnis von Dokumenten
  • Langer Kontext.
  • Mathematik und Logik

Gemini 1.5 Flash 002 verwendet ein dynamisches gemeinsam genutztes Kontingent.

Manchmal kann gemini-1.5-flash-002 in Ihrer Landessprache antworten, auch wenn der Prompt in einer anderen Sprache verfasst ist. Dieses Problem betrifft nur Prompts in anderen Sprachen als Englisch. Um dieses Problem zu vermeiden, empfehlen wir Ihnen, Ihrer Systemanleitung Folgendes hinzuzufügen, damit das Modell in derselben Sprache wie der Prompt antwortet:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-flash-001 24. Mai 2024 24. Mai 2025 Erste Version von Gemini 1.5 Flash.

Vorabversionen

Modellname Vorschauname Einstellungsdatum
Gemini 1.5 Flash (Vorschau) gemini-1.5-flash-preview-0514 24. Juni 2024

Gemini 1.5 Pro,

Beschreibung

Ein multimodales Modell, das das Hinzufügen von Bild-, Audio-, Video- und PDF-Dateien in Text- oder Chat-Prompts für eine Text- oder Codeantwort unterstützt. Dieses Modell unterstützt die Verarbeitung von Abfragen mit langem Kontext bis zum maximalen Eingabetokenlimit.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Ja (nur Texteingabe)
Abstimmung Nein
Systemanweisung Ja. Weitere Informationen finden Sie unter Systemanweisungen verwenden.
JSON-Unterstützung Ja
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Eingabetokens: 2.097.152
Max. Ausgabetokens: 8.192
Maximale Anzahl von Bildern pro Prompt: 3.000
Maximale Videolänge (nur Frames): ca. eine Stunde
Maximale Videolänge (Frame und Audio): ca. 45 Minuten
Maximale Anzahl von Videos pro Prompt: 10
Maximale Audiolänge: etwa 8,4 Stunden
Maximale Audioinhalte pro Prompt: 1
Maximale PDF-Größe: 30 MB
Trainingsdaten: Bis Mai 2024

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Stabile Versionen

Gemini 1.5 Pro-Modell Veröffentlicht Einstellungsdatum Highlights der Modellversion
gemini-1.5-pro-002 24. September 2024 24. September 2025 Die allgemeine Modellqualität wurde verbessert, was sich in erheblichen Leistungssteigerungen in den folgenden Kategorien niederschlägt:
  • Faktualität und Reduzierung von Modellhalluzinationen.
  • Openbook-Fragen und -Antworten zu Anwendungsfällen für RAG
  • Befolgung von Anweisungen
  • Mehrsprachige Spracherkennung in 102 Sprachen, insbesondere in Koreanisch, Französisch, Deutsch, Spanisch, Japanisch, Russisch und Chinesisch.
  • SQL-Generierung
  • Audioverständnis
  • Verständnis von Dokumenten
  • Langer Kontext.
  • Mathematik und Logik

Gemini 1.5 Pro 002 verwendet ein dynamisches freigegebenes Kontingent.

Manchmal kann gemini-1.5-pro-002 in Ihrer Landessprache antworten, auch wenn der Prompt in einer anderen Sprache verfasst ist. Dieses Problem betrifft nur Prompts in anderen Sprachen als Englisch. Um dieses Problem zu vermeiden, empfehlen wir Ihnen, Ihrer Systemanleitung Folgendes hinzuzufügen, damit das Modell in derselben Sprache wie der Prompt antwortet:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-pro-001 24. Mai 2024 24. Mai 2025 Erste Version von Gemini 1.5 Pro.

Vorabversionen

Modellname Modell-ID Einstellungsdatum
Gemini 1.5 Pro (Vorschau) gemini-1.5-pro-preview-0514 24. Juni 2024
Gemini 1.5 Pro (Vorschau) gemini-1.5-pro-preview-0409 (verweist auf gemini-1.5-pro-preview-0514 und verwendet dieses Flag) 14. Juni 2024

Gemini 1.0 Pro

Beschreibung

Das leistungsstärkste Modell mit Features für eine Vielzahl von reinen Textaufgaben. Dieses Modell unterstützt nur Text als Eingabe.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Ja (nur Texteingabe)
Abstimmung Ja. Die überwachte Abstimmung wird von gemini-1.0-pro-002 unterstützt.
Systemanweisung Ja. Unterstützt von gemini-1.0-pro-002. Weitere Informationen finden Sie unter Systemanweisungen verwenden.
JSON-Unterstützung Ja
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Eingabetokens: 32.760
Max. Ausgabetokens: 8.192
Trainingsdaten: bis Februar 2023

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Stabile Versionen

Gemini 1.0 Pro-Modell Veröffentlicht Einstellungsdatum
gemini-1.0-pro-001 15. Februar 2024 15. Februar 2025
gemini-1.0-pro-002 09. April 2024 09. April 2025

Automatisch aktualisierte Versionen

Modellname Automatisch aktualisierter Name Referenzierte stabile Version
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

Beschreibung

Das leistungsstärkste Bild-/Video-Understanding-Modell für eine Vielzahl von Anwendungen. Gemini 1.0 Pro Vision unterstützt Text, Bilder und Video als Eingaben.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Nein
Abstimmung Nein
Systemanweisung Nein
JSON-Unterstützung Nein
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Eingabetokens: 16.384
Max. Ausgabetokens: 2.048
Maximale Anzahl von Bildern pro Prompt: 16
Maximale Videolänge: 2 Minuten
Maximale Anzahl von Videos pro Prompt: 1
Trainingsdaten: bis Februar 2023

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Stabile Versionen

Gemini 1.0 Pro Vision-Modell Veröffentlicht Einstellungsdatum
gemini-1.0-pro-vision-001 15. Februar 2024 15. Februar 2025

Automatisch aktualisierte Aliasse

Modellname Automatisch aktualisierter Name Referenzierte stabile Version
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

Beschreibung

Das leistungsstärkste Textmodell von Google, das für komplexe Aufgaben wie Anleitung, Code und Logik optimiert ist. Gemini 1.0 Ultra unterstützt nur Text als Eingabe.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Nein
Abstimmung Nein
Systemanweisung Nein
JSON-Unterstützung Nein
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Anzahl eingegebener Tokens: 8.192
Maximale Anzahl ausgegebener Tokens: 2.048

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Gemini 1.0 Ultra Vision

Beschreibung

Das leistungsstärkste multimodale Vision-Modell von Google, das für die Unterstützung gemeinsamer Text-, Bild- und Videoeingaben optimiert ist.

Leistungsspektrum

Leistungsvermögen Verfügbarkeit
Nullniveau Nein
Abstimmung Nein
Systemanweisung Nein
JSON-Unterstützung Nein
Bereitgestellter Durchsatz Ja. Weitere Informationen finden Sie unter Unterstützte Modelle.

Spezifikationen

Spezifikation
Maximale Anzahl eingegebener Tokens: 8.192
Maximale Anzahl ausgegebener Tokens: 2.048

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Gemini-Sprachunterstützung

  • Alle Gemini-Modelle können die folgenden Sprachen verstehen und darauf antworten:

    Arabisch (ar), Bengalisch (bn), Bulgarisch (bg), Chinesisch (vereinfacht und traditionell), Kroatisch (hr), Tschechisch (cs), Dänisch (da), Niederländisch (nl), Englisch (en), Estnisch (et), Finnisch (fi), Französisch (fr), Deutsch (de), Griechisch (el), Hebräisch (iw), Hindi (hi), Ungarisch (hu), Indonesisch (id), Italienisch (it), Japanisch (ja), Koreanisch (ko), Lettisch (lv), Litauisch (lt), Norwegisch (no) ), Polnisch (pl), Portugiesisch (pt), Rumänisch (ro), Russisch (ru), Serbisch (sr), Slowakisch (sk), Slowenisch (sl), Spanisch (es), Swahili (sw), Schwedisch (sv), Thai (th), Türkisch (tr), Ukrainisch (uk), Vietnamesisch (vi).

  • Die Modelle Gemini 1.5 Pro und Gemini 1.5 Flash können in den folgenden zusätzlichen Sprachen verstehen und antworten:

    Afrikaans (af), Amharisch (am), Assamesisch (as), Aserbaidschanisch (az), Weißrussisch (be), Bosnisch (bs), Katalanisch (ca), Cebuano (ceb), Korsisch (co), Walisisch (cy), Divehi (dv), Esperanto (eo), Baskisch (eu), Persisch (fa), Filipino (Tagalog) (fil), Friesisch (fy), Irisch (ga), Schottisch-Gälisch (gd), Galicisch (gl), Gujarati (gu), Hausa (ha), Hawaiianisch (haw), Hmong (hmn), Haitianisch-Kreolisch (ht), Armenisch (hy), Igbo (ig), Isländisch (is), Javanisch (jv), Georgisch (ka), Kasachisch (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdisch (ku), Kirgisisch (ky), Lateinisch (la), Luxemburgisch (lb), Laotisch (lo), Malagasy (mg), Maori (mi), Mazedonisch (mk), Malayalam (ml), Mongolisch (mn), Meitei (Manipuri) (mni-Mtei), Marathi (mr), Malaysisch (ms), Maltesisch (mt), Myanmar (Burmesisch) (my), Nepalesisch (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Paschtu (ps), Sindhi (sd), Sinhala (Singhalesisch) (si), Samoanisch (sm), Shona (sn), Somali (so), Albanisch (sq), Sesotho (st), Sundanesisch (su), Tamil (ta), Telugu (te), Tadschikisch (tg), Uigurisch (ug), Urdu (ur), Usbekisch (uz), Xhosa (xh), Jiddisch (yi), Yoruba (yo), Zulu (zu)

Gemma-Modelle

In der folgenden Tabelle sind die Gemma-Modelle zusammengefasst.

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Gemma
Modelldetails
Text Text Ein kleines, schlankes Modell für offenen Text, das Textgenerierung, -zusammenfassung und -extraktion unterstützt. Kann in Umgebungen mit begrenzten Ressourcen bereitgestellt werden. Gemma testen
CodeGemma
Modelldetails
Text, Code, PDF Text Eine Sammlung einfacher Open-Code-Modelle, die auf Gemma basieren. Optimal für die Codegenerierung und -vervollständigung. CodeGemma testen
PaliGemma
Modelldetails
Text, Bilder Text Ein einfaches Vision-Language-Modell (VLM). Am besten geeignet für Aufgaben zum Erstellen von Bildunterschriften und zum Beantworten visueller Fragen. PaliGemma testen

Gemma-Sprachunterstützung

Gemma unterstützt nur die englische Sprache.

Einbettungsmodelle

In der folgenden Tabelle sind die in der Embeddings API verfügbaren Modelle zusammengefasst.

Modellname Beschreibung Spezifikationen Modell testen
Einbettungen für Text
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Modelldetails
Gibt Einbettungen für englische Texteingaben zurück.

Unterstützt die überwachte Abstimmung von Embeddings für Text-Modellen, nur auf Englisch.
Maximale Tokeneingabe: 3.072 (textembedding-gecko@001).
Andere: 2.048.

Einbettungsdimensionen: text-embedding-004: <=768.
Andere: 768.
Einbettungen für Text testen
Einbettungen für mehrsprachigen Text
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Modelldetails
Gibt Einbettungen für Texteingaben von über 100 Sprachen zurück

Unterstützt die überwachte Abstimmung des text-multilingual-embedding-002-Modells.
Unterstützt über 100 Sprachen
Maximale Tokeneingabe: 2.048

Einbettungsdimensionen: text-multilingual-embedding-002: <=768
Andere: 768
Einbettungen für mehrsprachigen Text testen
Einbettungen für multimodale Konfigurationen
(multimodalembedding)
Modelldetails
Gibt Einbettungen für Text-, Bild- und Videoeingaben zurück, um Inhalte aus verschiedenen Modellen zu vergleichen.

Konvertiert Text, Bilder und Videos in denselben Vektorbereich. Video unterstützt nur 1408 Dimensionen.
nur in englischer Sprache verfügbar.
Maximale Tokeneingabe: 32,
Maximale Bildgröße: 20 MB,
maximale Videolänge: 2 Minuten,

Einbettungsdimensionen: 128, 256, 512 oder 1408 für Text+Bildeingabe, 1408 für Videoeingabe.
Einbettungen für multimodale Konfigurationen testen

Sprachunterstützung für Einbettungen

Mehrsprachige Texteinbettungsmodelle unterstützen die folgenden Sprachen:
Afrikaans, Albanisch, Amharisch, Arabisch, Armenisch, Aserbaidschanisch, Baskisch, Belarussisch, Bengalisch, Bulgarisch, Burmesisch, Katalanisch, Cebuano, Plughewa, Chinesisch, Korsesisch, Tschechisch, Dänisch, Niederländisch, Englisch, Esperanto, Estnisch, Filipino, Finnisch, Französisch, Galizisch, Georgisch, Griechisch, Gujarati, Haitianisches Kreolisch, Hausa, Hawaii, Hebräisch, Hindi, Hmong, Ungarisch, Isländisch, Igbo, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Khmer, Koreanisch, Kurdisch, Kirgisisch, Lao, Latein, Lettisch, Lettisch, Litauisch, Luxemburgisch, Mazedonisch, Malagasy, Malaiisch, Malayalam, Maltesisch, Maori, Marathi, Mongolisch, Nepalesisch, Norwegisch, Paschtunisch, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Samoanisch, Schottisch, Serbisch, Shona, Sindhi, Singhalesisch, Slowakisch, Slowenisch, Somali, Sotho,{ 101} Spanisch, Sundanesisch, Swahili, Schwedisch, Tadschikisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Usbekisch, Vietnamesisch, Walisisch, Westfriesisch, Xhosa, Jiddisch, Yoruba, Zulu.

Imagen-Modell

In der folgenden Tabelle sind die in der Imagen API verfügbaren Modelle zusammengefasst:

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Imagen
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001, imagegeneration@006, imagegeneration@005, imagegeneration@002)
Modelldetails
Text (Generierung), Bilder (Bearbeitung) Bilder Dieses Modell unterstützt die Bilderstellung und -bearbeitung, um in Sekundenschnelle hochwertige Bilder zu erstellen.

Die Bearbeitungsfunktion unterstützt das Entfernen und Einfügen von Objekten, das Outpainting und die Bearbeitung von Produkten.
Imagen ausprobieren

Imagen 3-Sprachunterstützung

Imagen 3 unterstützt die folgenden Sprachen:
Englisch, Chinesisch, Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch.

Codevervollständigungsmodell

In der folgenden Tabelle sind die in den Codey APIs verfügbaren Modelle zusammengefasst:

Modell Eingaben Ausgaben Anwendungsfall Modell testen
Codey für Codevervollständigung
(code-gecko)
Modelldetails
Code in unterstützten Sprachen Code in unterstützten Sprachen Ein Modell, das optimiert wurde, um eine Codevervollständigung auf Grundlage des Kontextes im geschriebenen Code vorzuschlagen. Codey für Codevervollständigung testen

Sprachunterstützung für Codevervollständigungsmodelle

Das Modell für die Codevervollständigung unterstützt die englische Sprache.

MedLM-Modelle

In der folgenden Tabelle sind die in der MedLM API verfügbaren Modelle zusammengefasst:

Modellname Beschreibung Spezifikationen Modell testen
MedLM-medium (medlm-medium)
Modelldetails
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden.

Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente. Bietet einen besseren Durchsatz und enthält aktuellere Daten als das medlm-large-Modell.
Maximale Tokens (Eingabe + Ausgabe): 32.768
Maximale Ausgabetokens: 8.192
MedLM-medium ausprobieren
MedLM-large (medlm-large)
Modelldetails
Eine HIPAA-konforme Suite von medizinisch abgestimmten Modellen und APIs, die von Google Research bereitgestellt werden.

Dieses Modell unterstützt Gesundheitskräfte bei medizinischen Fragen und Antworten sowie Zusammenfassungsaufgaben für Gesundheits- und medizinische Dokumente.
Maximale Eingabetokens: 8.192
Maximale Ausgabetokens: 1.024
MedLM-large ausprobieren

Unterstützung für den bereitgestellten Durchsatz von MedLM

MedLM-medium und MedLM-large unterstützen den bereitgestellten Durchsatz. Weitere Informationen finden Sie unter Unterstützte Modelle.

MedLM-Sprachunterstützung

Das MedLM-Modell unterstützt die englische Sprache.

Standorte

Eine Liste der Standorte, an denen diese Modelle verfügbar sind, finden Sie unter Generative AI an Vertex AI-Standorten.

Modellversionen

Weitere Informationen zu Modellversionen finden Sie unter Modellversionen.

Alle Modelle in Model Garden untersuchen

Model Garden ist eine Plattform, mit der Sie Vertex AI ermitteln, testen, anpassen und bereitstellen sowie OSS-Modelle und -Assets auswählen können. Informationen zu den in Vertex AI verfügbaren generativen KI-Modellen und APIs finden Sie in der Model Console in der Google Cloud Console.

Zu Model Garden

Weitere Informationen zu Model Garden, einschließlich der verfügbaren Modelle und Funktionen, finden Sie unter KI-Modelle in Model Garden entdecken.

Wie geht es weiter?