Mit den Bildgenerierungsmodellen Gemini 2.5 Flash Image und Imagen können Sie in Sekundenschnelle Bilder aus Textbeschreibungen generieren und bearbeiten. APIs sind in den Programmiersprachen Python, Java und Go verfügbar.
Neukunden erhalten ein Startguthaben von bis zu 300 $, mit dem sie unter anderem KI-generierte Bilder in Vertex AI erstellen können.
Überblick
Eine Text-zu-Bild-KI ist eine Art künstlicher Intelligenz, die Bilder aus Textbeschreibungen generieren und bearbeiten kann. Diese Technologie hat das Potenzial, die Art und Weise, wie wir mit visuellen Inhalten interagieren und sie erstellen, grundlegend zu verändern. Die Text-zu-KI-Tools und ‑Ressourcen von Google Cloud, einschließlich vortrainierter KI-Modelle wie Imagen, Gemini 2.5 Flash Image und Veo, die in Vertex AI verfügbar sind, wurden entwickelt, um Entwicklern die Implementierung der Text-zu-Bild-Generierung in ihren Anwendungen zu erleichtern.
KI-Modelle für die Text-zu-Bild-Generierung können in der Anwendungsentwicklung verwendet werden, um Mock-ups, Prototypen, Illustrationen, Testdaten, Bildungsinhalte und Visualisierungen für das Debugging zu erstellen. Vertex AI und die Cloud Vision API von Google Cloud bieten Entwicklern Zugriff auf eine Reihe von Bildverarbeitungsfunktionen, darunter Texterkennung, Objekterkennung und Bildklassifizierung. Document AI kann verwendet werden, um Text aus gescannten Dokumenten zu extrahieren und daraus Bildbeschreibungen zu generieren.
Imagen und Gemini 2.5 Flash Image sind die wichtigsten Text-zu-Bild-Modelle von Google.
Imagen: Imagen ist ein spezialisiertes, reines Bildmodell. Es ist als Diffusions-Engine konzipiert, was bedeutet, dass der Schwerpunkt auf der Generierung hochwertiger, ausgefeilter und fotorealistischer Bilder aus Text-Prompts liegt. Die Stärke des Modells liegt im „Musterabgleich von Text zu Pixeln“, um ansprechende, visuell attraktive Ausgaben zu erstellen.
Gemini 2.5 Flash Image: Dies ist ein nativ multimodales Large Language Model (LLM). Im Gegensatz zu einem dedizierten Bildmodell behandelt es Bilder als eine weitere Form von „Sprache“. Das bedeutet, dass es von Grund auf darauf trainiert wurde, sowohl Text als auch Bilder in einem einzigen, einheitlichen Schritt zu verstehen und zu verarbeiten. Diese Architektur ermöglicht einzigartige Fähigkeiten, die über die einfache Generierung hinausgehen.
Sie können über Vertex AI in Google Cloud oder Google AI Studio auf diese KI-Modelle für die Text-zu-Bild-Generierung zugreifen. Um die Modelle zu verwenden, geben Sie einfach einen Text-Prompt ein, wählen Parameter aus (bei einigen Modellen können Sie Parameter wählen, die Stil, Kreativität und Genauigkeit des generierten Bildes steuern) und generieren schließlich das Bild.
Funktionsweise
Die KI für die Text-zu-Bild-Generierung nutzt Natural Language Processing (NLP), um die Textbeschreibung in ein maschinenlesbares Format zu konvertieren. Nach der Konvertierung in ein maschinell lesbares Format wird das Modell für maschinelles Lernen mit einem riesigen Datensatz aus Text und Bildern trainiert, wobei es lernt, Muster zu erkennen und über diese Bilder zu generieren zu bearbeiten. Die Text-zu-Bild-KI von Google Cloud verwendet ein Deep-Learning-Modell namens Imagen. Dieses hochmoderne Modell kann fotorealistische Bilder aus Textbeschreibungen generieren.
Gängige Einsatzmöglichkeiten
Erfahren Sie, wie Sie das Feature zur Text-zu-Bild-Generierung von Imagen in Vertex AI verwenden und eine erweiterte Version eines generierten Bildes exportieren. In dieser Kurzanleitung erfahren Sie, wie Sie die Bildgenerierung von Imagen in der Google Cloud Console verwenden.
Erfahren Sie, wie Sie das Feature zur Text-zu-Bild-Generierung von Imagen in Vertex AI verwenden und eine erweiterte Version eines generierten Bildes exportieren. In dieser Kurzanleitung erfahren Sie, wie Sie die Bildgenerierung von Imagen in der Google Cloud Console verwenden.
Mit Gemini 2.5 Flash Image können Sie verschiedene Bilder zu einem neuen, nahtlos wirkenden Bild kombinieren. Sie können mehrere Referenzbilder nutzen, um ein einziges, einheitliches Bild zu erstellen. Außerdem können Sie Bilder mit einfachen Anweisungen in natürlicher Sprache bearbeiten. Ob Sie eine Person aus einem Gruppenfoto entfernen oder ein kleines Detail wie einen Fleck korrigieren möchten – es geht ganz einfach per Sprachbefehl.
Außerdem können Sie mit Imagen in Vertex AI von Imagen generierte oder vorhandene Bilder bearbeiten. Sie können den zu bearbeitenden Teil des Bildes und eine Textbeschreibung der Änderungen angeben (maskenbasierte Bearbeitung).
Mit Gemini 2.5 Flash Image können Sie verschiedene Bilder zu einem neuen, nahtlos wirkenden Bild kombinieren. Sie können mehrere Referenzbilder nutzen, um ein einziges, einheitliches Bild zu erstellen. Außerdem können Sie Bilder mit einfachen Anweisungen in natürlicher Sprache bearbeiten. Ob Sie eine Person aus einem Gruppenfoto entfernen oder ein kleines Detail wie einen Fleck korrigieren möchten – es geht ganz einfach per Sprachbefehl.
Außerdem können Sie mit Imagen in Vertex AI von Imagen generierte oder vorhandene Bilder bearbeiten. Sie können den zu bearbeitenden Teil des Bildes und eine Textbeschreibung der Änderungen angeben (maskenbasierte Bearbeitung).
Erstellen Sie relevante Beschreibungen für Bilder, einschließlich detaillierter Metadaten, automatischer Untertitel und Kurzbeschreibungen von Produkten und visuellen Assets.
Erstellen Sie relevante Beschreibungen für Bilder, einschließlich detaillierter Metadaten, automatischer Untertitel und Kurzbeschreibungen von Produkten und visuellen Assets.
Bilder, die mit bestimmten KI-Modellen in Vertex AI generiert werden, wie Imagen und Gemini 2.5 Flash Image, werden automatisch mit einem digitalen Wasserzeichen versehen. Dafür wird eine von Google DeepMind entwickelte Technologie namens SynthID verwendet, die ein unsichtbares Wasserzeichen direkt in die Pixel des Bildes einbettet.
Um das digitale Wasserzeichen in einem Bild in Vertex AI zu erkennen, können Sie die integrierten Erkennungstools verwenden. In Vertex AI Media Studio können Sie einfach das Bild hochladen, das Sie prüfen möchten. Wirdein SynthID-Wasserzeichen erkannt, wird das Bild mit dem Badge „SynthID erkannt“ versehen.
Bilder, die mit bestimmten KI-Modellen in Vertex AI generiert werden, wie Imagen und Gemini 2.5 Flash Image, werden automatisch mit einem digitalen Wasserzeichen versehen. Dafür wird eine von Google DeepMind entwickelte Technologie namens SynthID verwendet, die ein unsichtbares Wasserzeichen direkt in die Pixel des Bildes einbettet.
Um das digitale Wasserzeichen in einem Bild in Vertex AI zu erkennen, können Sie die integrierten Erkennungstools verwenden. In Vertex AI Media Studio können Sie einfach das Bild hochladen, das Sie prüfen möchten. Wirdein SynthID-Wasserzeichen erkannt, wird das Bild mit dem Badge „SynthID erkannt“ versehen.