Audioinhalte verstehen

Gemini kann auf Prompts zu Audioinhalten reagieren. Sie können Gemini-Anfragen Audio hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte des enthaltenen Audios berücksichtigt werden müssen. Gemini kann beispielsweise Folgendes tun:

Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten
Stellen Sie eine Transkription des Audioinhalts bereit.
Antworten oder eine Transkription zu einem bestimmten Segment des Audios bereitstellen

Die Audioanalyse ist eine der multimodalen Eingaben von Gemini, bei der Text mit Mediendateien kombiniert wird.

Weitere Informationen zum Audio-Verständnis mit Gemini und eine Schritt-für-Schritt-Anleitung zum Senden von API-Anfragen finden Sie unter Multimodalen Prompt senden.

Spezifikationen für Prompts mit Audio

Sie können Ihrer Anfrage an Gemini Audiodateien hinzufügen. Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 15 Minuten oder bis zu 32.000 Tokens. Gemini begrenzt die Anzahl der Audiodateien in einem einzelnen Prompt nicht, aber die kombinierte Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf 15 Minuten nicht überschreiten.

Gemini kann Sprache für Audiozusammenfassungen, Transkription und Übersetzung verstehen.

Audio muss einen der folgenden MIME-Typen für Audioformate haben:

AAC: audio/aac
AIF: audio/aiff
FLAC: audio/flac
MP3: audio/mp3
OGG: audio/ogg
WAV: audio/wav

Für Audio gelten in Gemini die folgenden Regeln:

Jede Sekunde Audio wird als 25 Tokens dargestellt. Eine Minute Audio entspricht beispielsweise 1.500 Tokens.
Antworten nur auf englischsprachige Sprache ableiten.
Nicht sprachliche Komponenten wie Vogelgesang oder Sirenen analysieren.
Beispiel-Audiodateien mit einer Datenauflösung von 16 kbit/s. Wenn die Audioquelle mehrere Kanäle enthält, werden sie von Gemini in einem einzigen Kanal zusammengefasst.

Sie können den Chat Completions-Endpunkt in der REST API verwenden und entweder einen HTTP-Client oder die offiziellen SDKs von OpenAI für Python verwenden. Sie können die Audioinhalte als Inline-Daten in der Prompts-Anfrage als Base64-codierte Datei bereitstellen oder die Audiodatei hochladen, bevor Sie die Prompts-Anfrage senden.

Weitere Informationen zu Einschränkungen für Audio finden Sie in der Dokumentation zu Google Cloud .

Weitere Informationen zu OpenAI und dem Chat Completions-Endpunkt, den Gemini in Google Distributed Cloud (GDC) Air-Gapped implementiert, finden Sie unter https://platform.openai.com/docs/api-reference/chat.

Audio aus einem Prompt verstehen

In den folgenden Beispielen wird eine Anfrage an die Gemini Chat Completions API gezeigt, um Text aus Text- und Audioeingaben mit den offiziellen SDKs von OpenAI für Python oder curl zu generieren. Sie können Audio als Inlinedaten senden oder eine Audio-URL in der Anfrage angeben.

Inline-Datenanfragen senden

Audio als Inline-Daten für die Prompt-Anfrage aus base64-codierten Dateien bereitstellen Die API-Anfrage enthält das Feld input_audio für base64-codierte Audiodaten. Im folgenden Beispiel wird gezeigt, wie base64-codierte Audioanfragen gesendet werden:

Python

import openai

client = openai.OpenAI()
model_response = client.chat.completions.create(
  model = "MODEL_ID",
  messages =  [
                {
                  "role": "user",
                  "content": "Show me the lyrics of this song."
                },
                {
                  "role": "user",
                  "content": [
                    {
                      "type": "input_audio",
                      "input_audio": {
                        "data": BASE64_DATA,
                        # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                        "format": "mp3"
                      }
                    }
                  ]
                }
              ]
)

print(model_response)

Ersetzen Sie Folgendes:

MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
BASE64_DATA: Die base64-codierten Daten der Audiodatei. Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen. Das Format für das Feld data für base64-codierte Daten ist beispielsweise "data": f"data:audio/mp3;base64,{base64_audio}".

curl

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "input_audio",
                  "input_audio": {
                    "data": BASE64_DATA,
                    # Valid formats are aac, aiff, flac, mp3, ogg, or wav
                    "format": "mp3"
                  }
                }
              ]
            }
          ],
      }'

Ersetzen Sie Folgendes:

ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.
PROJECT: Ihre Projekt-ID.
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
BASE64_DATA: Die base64-codierten Daten der Audiodatei. Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen. Das Format für das Feld data für base64-codierte Daten ist beispielsweise "data": f"data:audio/mp3;base64,{base64_audio}".

Audio-URLs in der Anfrage senden

Laden Sie die Audiodatei in einen Storage-Bucket hoch, bevor Sie die Prompt-Anfrage stellen. Die API-Anfrage enthält das Feld audio_url für Audiodateien in Speicher-Buckets. Im folgenden Beispiel wird gezeigt, wie Audio-URL-Anfragen gesendet werden:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d  '{
          "model_id": "MODEL_ID",
          "messages": [
            {
              "role": "user",
              "content": "Show me the lyrics of this song."
            },
            {
              "role": "user",
              "content": [
                {
                  "type": "audio_url",
                  "audio_url": {
                    "url": "AUDIO_URL",
                  }
                }
              ]
            }
          ],
      }'

Ersetzen Sie Folgendes:

ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.
PROJECT: Ihre Projekt-ID.
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
AUDIO_URL: Der Pfad zu einer Audio-URL in einem Speicher-Bucket. Audio-URLs müssen auf Audiodateien verweisen, die in einem GDC-Speicher-Bucket gespeichert sind. Weitere Informationen finden Sie unter Daten speichern.

Nächste Schritte

Multimodalen Prompt senden

Audioinhalte verstehen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Spezifikationen für Prompts mit Audio

Audio aus einem Prompt verstehen

Inline-Datenanfragen senden

Python

curl

Audio-URLs in der Anfrage senden

Nächste Schritte

Audioinhalte verstehen