Multimodale Antworten

Gemini 2.0 Flash unterstützt die Generierung von Antworten in mehreren Modalitäten, einschließlich Text, Sprache und Bildern.

Textgenerierung

Gemini 2.0 Flash unterstützt die Textgenerierung mit der Google Cloud Console, der REST API und unterstützten SDKs. Weitere Informationen finden Sie in unserem Leitfaden zur Textgenerierung.

Sprachausgabe (Early Access/Zulassungsliste)

Gemini 2.0 unterstützt eine neue multimodale Generierungsfunktion: die Sprachausgabe. Mit der Text-to-Speech-Funktion können Sie das Modell auffordern, eine hochwertige Audioausgabe zu generieren, die wie eine menschliche Stimme klingt (say "hi everyone"). Sie können die Ausgabe weiter optimieren, indem Sie die Stimme steuern.

Bildgenerierung (Early Access/Zulassungsliste)

Gemini 2.0 unterstützt die Ausgabe von Text mit Inline-Bildern. So können Sie mit Gemini Bilder per Unterhaltung bearbeiten oder multimodale Ausgaben generieren, z. B. einen Blogpost mit Text und Bildern in einer einzigen Unterhaltung. Bisher war es dafür erforderlich, mehrere Modelle aneinanderzureihen.

Die Bildgenerierung ist als privater experimenteller Release verfügbar. Es werden die folgenden Modalitäten und Funktionen unterstützt:

  • Text zu Bild
    • Beispiel: „Generiere ein Bild des Eiffelturms mit Feuerwerk im Hintergrund.“
  • Text in Bilder und Text (interleaved)
    • Beispiel für einen Prompt: „Erstelle ein illustriertes Rezept für eine Paella. Erstellen Sie beim Erstellen des Rezepts Bilder, die zum Text passen.“
  • Bilder und Text in Bilder und Text (interleaved)
    • Beispiel für einen Prompt: (Mit einem Bild eines möblierten Raums) „Welche Sofas in einer anderen Farbe würden in meinem Raum passen? Können Sie das Bild aktualisieren?“
  • Bildbearbeitung (Text und Bild zu Bild)
    • Beispiel für einen Prompt: „Bearbeiten Sie dieses Bild so, dass es wie ein Cartoon aussieht.“
    • Beispiel für einen Prompt: [Bild einer Katze] + [Bild eines Kissens] + „Erstelle ein Bild meiner Katze in Kreuzstich auf diesem Kissen.“
  • Bildbearbeitung mit mehreren Antworten (Chat)
    • Beispiele für Prompts: [Lade ein Bild eines blauen Autos hoch.] „Machen Sie dieses Auto zu einem Cabrio.“ „Ändern Sie jetzt die Farbe in Gelb.“
  • Wasserzeichen
    • Alle generierten Bilder enthalten ein SynthID-Wasserzeichen.

Beschränkungen:

  • Die Generierung von Personen und die Bearbeitung von hochgeladenen Bildern von Personen sind nicht zulässig.
  • Die beste Leistung erzielen Sie mit den folgenden Sprachen: DE, es-MX, ja-JP, zh-CN, hi-IN.
  • Für die Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
  • Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
    • Das Modell gibt möglicherweise nur Text aus. Fordern Sie explizit Bildausgaben an (z.B. „Bild generieren“, „Bilder nach und nach bereitstellen“, „Bild aktualisieren“).
    • Möglicherweise wird die Generierung durch das Modell vorzeitig beendet. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.