English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

Kontakt Jetzt kostenlos testen

Stärken und Einschränkungen des Gemini-Modells

Gemini-Modellstärken

Im Folgenden sind einige der multimodalen Stärken von Gemini 1.0-Modellen aufgeführt:

Anwendungsfall	Beschreibung
Informationssuchung	Weltwissen mit Informationen zusammenführen, die aus Bildern und Videos extrahiert wurden.
Objekterkennung	Beantworten von Fragen zur detaillierten Identifizierung von Objekten in Bildern und Videos.
Verständnis digitaler Inhalte	Fragen beantworten und Informationen aus verschiedenen Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten extrahieren
Generierung strukturierter Inhalte	Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung.
Untertitelung / Beschreibung	Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen. Wir empfehlen, für Bilder/Videos folgende Prompts zu verwenden und dann zu iterieren, um genauere Beschreibungen zu erhalten. Bild: „Können Sie eine Beschreibung zum Bild verfassen?“ Video: "Können Sie beschreiben, was in diesem Video passiert?"
Extrapolationen	Vorschläge für weitere Inhalte basierend auf dem Standort, was als Nächstes/vor/zwischen Bildern oder Videos passieren könnte, und ermöglichen von kreativen Anwendungen wie das Schreiben von Geschichten anhand visueller Eingaben.

Einschränkungen von Gemini

Die Gemini 1.0-Modelle unterliegen den folgenden Einschränkungen:

Beschränkung	Beschreibung
Räumliches Denken	Kann bei der genauen Objekt-/Textlokalisierung in Bildern Probleme haben. Gemini kann bei gedrehten Bildern weniger genau arbeiten.
Zählen	Kann nur grobe Näherungswerte für die Objektanzahl liefern, insbesondere bei verdeckten Objekten.
Längere Videos verstehen	Unterstützt Videos als separate Modalität (funktioniert anders als die Verarbeitung einzelner Bilder). Das Modell empfängt jedoch Informationen aus einem nicht zusammenhängenden Satz von Bildframes, nicht aus dem kontinuierlichen Video selbst (und nicht aus dem Audio). Gemini extrahiert außerdem keine Informationen, die über zwei Videominuten hinausgehen. Wenn Sie die Leistung von Videos mit dichtem Inhalt verbessern möchten, kürzen Sie Ihr Video so, dass das Modell einen größeren Teil des Videocontents erfasst.
Komplexe Anleitung befolgen	Kann mit Aufgaben kämpfen, die mehrere Denkschritte erfordern. Überlegen Sie sich, ob Sie die Anleitung aufschlüsseln oder klare Beispiele bereitstellen können, um eine bessere Anleitung zu geben.
Medizinische Verwendung	Nicht geeignet für die Interpretation medizinischer Bilder (z. B. Röntgen- und CT-Scans) oder die Bereitstellung von medizinischem Rat.
Chat mit mehreren Antworten (multimodal)	Nicht für Chatbot-Funktionen oder die Beantwortung von Fragen im Plauderton trainiert. Kann in Multi-Thread-Unterhaltungen weniger effektiv sein.

Nächste Schritte

Weitere Informationen finden Sie unter Multimodale Prompts testen.

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2024-03-25 (UTC).