Unterstützte Modelle
In der folgenden Tabelle sind die Modelle aufgeführt, die das Audioverständnis unterstützen:
Modell | Details zur Audiomodalität |
---|---|
Gemini 1.5 Flash Zur Modellkarte „Gemini 1.5 Flash“ |
Maximale Audiolänge pro Prompt: ~8,4 Stunden oder bis zu 1 Million Tokens. Sprache kann für die Zusammenfassung, Transkription und Übersetzung von Audiodaten verstanden werden. |
Gemini 1.5 Pro Zur Modellkarte „Gemini 1.5 Pro“ |
Maximale Audiolänge pro Prompt: ~8,4 Stunden oder bis zu 1 Million Tokens. Sprache kann für die Zusammenfassung, Transkription und Übersetzung von Audiodaten verstanden werden. |
Eine Liste der von Gemini-Modellen unterstützten Sprachen finden Sie in den Modellinformationen der Google-Modelle. Weitere Informationen zum Entwerfen multimodaler Prompts finden Sie unter Multimodale Prompts entwerfen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Web-Apps zu verwenden, finden Sie weitere Informationen in den Google AI SDKs für Android, Swift und Web.
Einer Anfrage Audio hinzufügen
Sie können Audiodateien Ihren Anfragen an Gemini hinzufügen.
Einzelnes Audio
Im Folgenden erfahren Sie, wie Sie eine Audiodatei verwenden, um einen Podcast zusammenzufassen.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der API-Referenzdokumentation zur Vertex AI SDK for Python.
Streaming- und Nicht-Streaming-Antworten
Sie können auswählen, ob das Modell eine Streamingantwort oder eine Nicht-Streamingantwort generiert. Das Streaming umfasst Antworten auf Prompts, sobald diese generiert werden. Das heißt, sobald das Modell Ausgabetokens generiert, werden die Ausgabetokens gesendet. Eine Nicht-Streamingantwort auf Prompts wird erst gesendet, wenn alle Ausgabetokens generiert wurden.
Verwenden Sie für eine Streamingantwort den Parameter stream
in
generate_content
.
response = model.generate_content(contents=[...], stream = True)
Entfernen Sie für eine Nicht-Streamingantwort den Parameter oder setzen Sie den Parameter auf False
.
Beispielcode
Audiotranskript
Im Folgenden erfahren Sie, wie Sie eine Audiodatei zum Transkribieren eines Interviews verwenden.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der API-Referenzdokumentation zur Vertex AI SDK for Python.
Streaming- und Nicht-Streaming-Antworten
Sie können auswählen, ob das Modell eine Streamingantwort oder eine Nicht-Streamingantwort generiert. Das Streaming umfasst Antworten auf Prompts, sobald diese generiert werden. Das heißt, sobald das Modell Ausgabetokens generiert, werden die Ausgabetokens gesendet. Eine Nicht-Streamingantwort auf Prompts wird erst gesendet, wenn alle Ausgabetokens generiert wurden.
Verwenden Sie für eine Streamingantwort den Parameter stream
in
generate_content
.
response = model.generate_content(contents=[...], stream = True)
Entfernen Sie für eine Nicht-Streamingantwort den Parameter oder setzen Sie den Parameter auf False
.
Beispielcode
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Go in der Vertex AI-Kurzanleitung. Weitere Informationen finden Sie in der Referenzdokumentation zum Vertex AI Go SDK für Gemini.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Streaming- und Nicht-Streaming-Antworten
Sie können auswählen, ob das Modell eine Streamingantwort oder eine Nicht-Streamingantwort generiert. Das Streaming umfasst Antworten auf Prompts, sobald diese generiert werden. Das heißt, sobald das Modell Ausgabetokens generiert, werden die Ausgabetokens gesendet. Eine Nicht-Streamingantwort auf Prompts wird erst gesendet, wenn alle Ausgabetokens generiert wurden.
Verwenden Sie für eine Nicht-Streamingantwort die Methode GenerateContentStream
.
iter := model.GenerateContentStream(ctx, genai.Text("Tell me a story about a lumberjack and his giant ox. Keep it very short."))
Verwenden Sie für eine Nicht-Streamingantwort die Methode GenerateContent
.
resp, err := model.GenerateContent(ctx, genai.Text("What is the average size of a swallow?"))
Beispielcode
C#
Bevor Sie dieses Beispiel anwenden, folgen Sie den C#-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI C# API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Modellparameter festlegen
Die folgenden Modellparameter können für multimodale Modelle festgelegt werden:
Top-P
Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Die Tokens werden von den wahrscheinlichsten (siehe „Top-K“) bis zu den unwahrscheinlichsten Werten ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem „Top-P“-Wert entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,3, 0,2 und 0,1 haben und der „Top-P“-Wert 0.5
ist, wählt das Modell anhand der Temperatur entweder A oder B als das nächste Token und C als Kandidaten ausschließen.
Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
Temperatur
Die Temperatur wird für die Probenahme während der Antwortgenerierung verwendet. Dies passiert, wenn topP
und topK
angewendet werden. Die Temperatur bestimmt den Grad der Zufälligkeit bei der Tokenauswahl.
Niedrigere Temperaturen eignen sich gut für Prompts, die eine weniger offene oder kreative Antwort erfordern, während höhere Temperaturen zu vielfältigeren oder kreativeren Ergebnissen führen können. Eine Temperatur von 0
bedeutet, dass immer die Tokens mit der höchsten Wahrscheinlichkeit ausgewählt werden. In diesem Fall sind die Antworten auf einen bestimmten Prompt größtenteils deterministisch, aber eine gewisse Variation ist dennoch möglich.
Wenn das Modell eine zu allgemeine oder zu kurze Antwort zurückgibt, oder wenn das Modell eine Fallback-Antwort ausgibt, versuchen Sie, die Temperatur zu erhöhen.
Gültige Parameterwerte
Parameter | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|
Top-P | 0 - 1,0 (Standard 0,95) | 0 - 1,0 (Standard 0,95) |
Temperatur | 0 - 2,0 (Standard 1,0) | 0 - 2,0 (Standard 1,0) |
Audioanforderungen
Gemini 1.5 Flash und Gemini 1.5 Pro unterstützen die folgenden Audio-MIME-Typen.
Audio-MIME-Typ | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Beschränkungen
Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:
- Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
- Zeitstempel nur für Audio: Modelle, die Audio unterstützen, können keine akkuraten Zeitstempel für Anfragen mit Audiodateien generieren. Dies schließt Zeitstempel für die Segmentierung und die zeitliche Lokalisierung ein. Zeitstempel können akkurat für Eingaben generiert werden, die Video mit Audio enthalten.
- Transkription und Satzzeichen: Von Gemini 1.5 Flash zurückgegebene Transkriptionen enthalten möglicherweise keine Satzzeichen.
Nächste Schritte
- Nutzen Sie die multimodalen Modelle von Gemini. Neukunden erhalten ein kostenloses Google Cloud-Guthaben im Wert von 300 $, um Gemini zu testen.
- Weitere Informationen zum Senden von Anfragen für Chat-Prompt-Anfragen
- Best Practices für verantwortungsbewusste KI und die Sicherheitsfilter von Vertex AI