Gemini 2.0 Flash ist jetzt als experimentelle Vorabversion über die Vertex AI Gemini API und Vertex AI Studio verfügbar. Das Modell bietet neue Funktionen und erweiterte Kernfunktionen:
- Multimodal Live API:Mit dieser neuen API können Sie mithilfe eines Tools Anwendungen für die Echtzeit-Bild- und Audio-Streaming erstellen.
- Geschwindigkeit und Leistung:Gemini 2.0 Flash hat eine deutlich verbesserte Time to First Token (TTFT) im Vergleich zu Gemini 1.5 Flash.
- Qualität:Die Qualität des Modells ist mit größeren Modellen wie Gemini 1.5 Pro vergleichbar.
- Verbesserte Nutzerfreundlichkeit von KI-Chatbots: Gemini 2.0 bietet Verbesserungen beim multimodalen Verständnis, beim Programmieren, beim Befolgen komplexer Anweisungen und beim Aufrufen von Funktionen. Diese Verbesserungen tragen zusammen dazu bei, die Nutzerfreundlichkeit zu erhöhen.
- Neue Modalitäten:Gemini 2.0 bietet native Bildgenerierung und steuerbare Funktionen für die Text-zu-Sprache-Funktion, die Bildbearbeitung, die Erstellung lokalisierter Artwork und ausdrucksstarke Geschichten ermöglichen.
Zur Unterstützung des neuen Modells stellen wir auch ein völlig neues SDK bereit, das eine einfache Migration zwischen der Gemini Developer API und der Gemini API in Vertex AI unterstützt.
Technische Details zu Gemini 2.0 finden Sie unter Google-Modelle.
Google Gen AI SDK (experimentell)
Das neue Google Gen AI SDK bietet eine einheitliche Benutzeroberfläche für Gemini 2.0 über die Gemini Developer API und die Gemini API in Vertex AI. Mit wenigen Ausnahmen kann Code, der auf einer Plattform ausgeführt wird, auch auf der anderen ausgeführt werden. Das bedeutet, dass Sie mit der Developer API einen Prototyp einer Anwendung erstellen und diese dann zu Vertex AI migrieren können, ohne den Code neu schreiben zu müssen.
Das Gen AI SDK unterstützt auch die Gemini 1.5-Modelle.
Das neue SDK ist in Python und Go verfügbar. Java und JavaScript folgen bald.
Sie können das SDK wie unten gezeigt verwenden.
- Installieren Sie das neue SDK:
pip install google-genai
- Importieren Sie dann die Bibliothek, initialisieren Sie einen Client und generieren Sie Inhalte:
from google import genai
# Replace the `project` and `location` values with appropriate values for
# your project.
client = genai.Client(
vertexai=True, project='YOUR_CLOUD_PROJECT', location='us-central1'
)
response = client.models.generate_content(
model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)
Optional: Umgebungsvariablen festlegen
Alternativ können Sie den Client mithilfe von Umgebungsvariablen initialisieren. Legen Sie zuerst die entsprechenden Werte fest und exportieren Sie die Variablen:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=YOUR_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True
Anschließend können Sie den Client ohne Argumente initialisieren:
client = genai.Client()
Multimodal Live API
Die Multimodal Live API ermöglicht bidirektionale Sprach- und Videointeraktionen mit Gemini bei niedriger Latenz. Mit der Multimodal Live API können Sie Endnutzern natürliche, menschliche Konversationen ermöglichen und ihnen die Möglichkeit geben, die Antworten des Modells per Sprachbefehl zu unterbrechen. Das Modell kann Text-, Audio- und Videoeingaben verarbeiten und Text- und Audioausgaben liefern.
Die Multimodal Live API ist in der Gemini API als Methode BidiGenerateContent
verfügbar und basiert auf WebSockets.
Weitere Informationen finden Sie im Referenzhandbuch für die Multimodal Live API.
Hier finden Sie ein Beispiel für die Text-zu-Text-Funktion, das Ihnen den Einstieg in die Multimodal Live API erleichtern soll:
from google import genai
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}
async with client.aio.live.connect(model=model_id, config=config) as session:
message = "Hello? Gemini, are you there?"
print("> ", message, "\n")
await session.send(input=message, end_of_turn=True)
async for response in session.receive():
print(response.text)
Funktionen:
- Audioeingabe mit Audioausgabe
- Audio- und Videoeingabe mit Audioausgabe
- Eine Auswahl an Stimmen; siehe Multimodal Live API-Stimmen
- Sitzungsdauer von bis zu 15 Minuten für Audio oder bis zu 2 Minuten für Audio und Video
Weitere Informationen zu den Funktionen der Multimodal Live API finden Sie unter Funktionen der Multimodal Live API.
Sprache:
- Nur Englisch
Beschränkungen:
- Weitere Informationen finden Sie unter Einschränkungen der Multimodal Live API.
Suche als Tool
Mit der Verknüpfung mit der Google Suche können Sie die Genauigkeit und Aktualität der Antworten des Modells verbessern. Ab Gemini 2.0 ist die Google Suche als Tool verfügbar. Das Modell kann also entscheiden, wann die Google Suche verwendet werden soll. Im folgenden Beispiel wird gezeigt, wie Sie die Suche als Tool konfigurieren.
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
google_search_tool = Tool(
google_search = GoogleSearch()
)
response = client.models.generate_content(
model=model_id,
contents="When is the next total solar eclipse in the United States?",
config=GenerateContentConfig(
tools=[google_search_tool],
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...
# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
Die Funktion „Suchen als Tool“ ermöglicht auch mehrstufige Suchanfragen und Abfragen mit mehreren Tools (z. B. die Kombination von Grounding mit der Google Suche und der Codeausführung).
Die Suche als Tool ermöglicht komplexe Aufgaben und Workflows, die Planung, Vernunft und Nachdenken erfordern:
- Fundierung, um Sachlichkeit und Aktualität zu verbessern und genauere Antworten zu liefern
- Artefakte aus dem Web abrufen, um sie weiter zu analysieren
- Relevante Bilder, Videos oder andere Medien finden, um bei multimodalen Argumentations- oder Generierungsaufgaben zu helfen
- Programmieren, technische Fehlerbehebung und andere spezielle Aufgaben
- Sie können bei der Suche nach regionsspezifischen Informationen helfen oder bei der korrekten Übersetzung von Inhalten unterstützen.
- Relevante Websites für die weitere Suche finden
Begrenzungsrahmenerkennung
Mit dieser experimentellen Version stellen wir Entwicklern ein leistungsstarkes Tool für die Objekterkennung und -lokalisierung in Bildern und Videos zur Verfügung. Durch die genaue Identifizierung und Abgrenzung von Objekten mit Begrenzungsboxen können Entwickler eine Vielzahl von Anwendungen nutzen und die Intelligenz ihrer Projekte verbessern.
Hauptvorteile:
- Einfach:Sie können Funktionen zur Objekterkennung ganz einfach in Ihre Anwendungen einbinden, unabhängig von Ihren Kenntnissen im Bereich maschinelles Sehen.
- Anpassbar:Sie können Begrenzungsrahmen anhand benutzerdefinierter Anweisungen erstellen (z.B. „Ich möchte Begrenzungsrahmen für alle grünen Objekte in diesem Bild sehen“), ohne ein benutzerdefiniertes Modell trainieren zu müssen.
Technische Details:
- Eingabe:Ihr Prompt und die zugehörigen Bilder oder Videoframes.
- Ausgabe:Begrenzungsrahmen im
[y_min, x_min, y_max, x_max]
-Format. Die linke obere Ecke ist der Ursprung. Diex
- undy
-Achse verlaufen horizontal bzw. vertikal. Die Koordinatenwerte werden für jedes Bild auf 0–1.000 normalisiert. - Visualisierung:AI Studio-Nutzer sehen Begrenzungsboxen, die in der Benutzeroberfläche dargestellt werden. Vertex AI-Nutzer sollten ihre Begrenzungsboxen mit benutzerdefiniertem Visualisierungscode visualisieren.
Sprachausgabe (Early Access/Zulassungsliste)
Gemini 2.0 unterstützt eine neue multimodale Generierungsfunktion: die Sprachausgabe.
Mit der Text-to-Speech-Funktion können Sie das Modell auffordern, eine hochwertige Audioausgabe zu generieren, die wie eine menschliche Stimme klingt (say "hi everyone"
). Sie können die Ausgabe weiter optimieren, indem Sie die Stimme steuern.
Bildgenerierung (Early Access/Zulassungsliste)
Gemini 2.0 unterstützt die Ausgabe von Text mit Inline-Bildern. So können Sie mit Gemini Bilder per Unterhaltung bearbeiten oder multimodale Ausgaben generieren, z. B. einen Blogpost mit Text und Bildern in einer einzigen Unterhaltung. Bisher war es dafür erforderlich, mehrere Modelle aneinanderzureihen.
Die Bildgenerierung ist als privater experimenteller Release verfügbar. Es werden die folgenden Modalitäten und Funktionen unterstützt:
- Text zu Bild
- Beispiel: „Generiere ein Bild des Eiffelturms mit Feuerwerk im Hintergrund.“
- Text in Bilder und Text (interleaved)
- Beispiel für einen Prompt: „Erstelle ein illustriertes Rezept für eine Paella. Erstellen Sie beim Erstellen des Rezepts Bilder, die zum Text passen.“
- Bilder und Text in Bilder und Text (interleaved)
- Beispiel für einen Prompt: (Mit einem Bild eines möblierten Raums) „Welche Sofas in einer anderen Farbe würden in meinem Raum passen? Können Sie das Bild aktualisieren?“
- Bildbearbeitung (Text und Bild zu Bild)
- Beispiel für einen Prompt: „Bearbeiten Sie dieses Bild so, dass es wie ein Cartoon aussieht.“
- Beispiel für einen Prompt: [Bild einer Katze] + [Bild eines Kissens] + „Erstelle ein Bild meiner Katze in Kreuzstich auf diesem Kissen.“
- Bildbearbeitung mit mehreren Antworten (Chat)
- Beispiele für Prompts: [Lade ein Bild eines blauen Autos hoch.] „Machen Sie dieses Auto zu einem Cabrio.“ „Ändern Sie jetzt die Farbe in Gelb.“
- Wasserzeichen
- Alle generierten Bilder enthalten ein SynthID-Wasserzeichen.
Beschränkungen:
- Das Erstellen von Personen und die Bearbeitung von hochgeladenen Bildern von Personen sind nicht zulässig.
- Die beste Leistung erzielen Sie mit den folgenden Sprachen: DE, es-MX, ja-JP, zh-CN, hi-IN.
- Für die Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
- Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
- Das Modell gibt möglicherweise nur Text aus. Fordern Sie explizit Bildausgaben an (z.B. „Bild generieren“, „Bilder nach und nach bereitstellen“, „Bild aktualisieren“).
- Möglicherweise wird die Generierung durch das Modell vorzeitig beendet. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.
Preise
Die Nutzung experimenteller Google-Modelle wird Ihnen nicht in Rechnung gestellt.