Transkriptionsfunktion auswählen
In diesem Dokument werden die in BigQuery ML verfügbaren Transkriptionsfunktionen verglichen: ML.GENERATE_TEXT
und ML.TRANSCRIBE
.
Anhand der Informationen in diesem Dokument können Sie entscheiden, welche Funktion Sie verwenden sollten, wenn sich die Funktionen in ihren Capabilities überschneiden.
Grob gesagt unterscheiden sich diese Funktionen so:
ML.GENERATE_TEXT
eignet sich gut für die Transkription von Audioclips mit einer Länge von maximal 10 Minuten. Außerdem können Sie damit Aufgaben für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ausführen. Die Audiotranskription mitML.GENERATE_TEXT
ist bei Verwendung desgemini-1.5-flash
-Modells günstiger als mitML.TRANSCRIBE
.ML.TRANSCRIBE
eignet sich gut für die Transkription von Audioclips, die länger als 10 Minuten sind. Außerdem wird eine größere Auswahl an Sprachen unterstützt als beiML.GENERATE_TEXT
.
Unterstützte Modelle
Folgende Modelle werden unterstützt:
ML.GENERATE_TEXT
: Sie können einen Teil der Vertex AI-Gemini-Modelle verwenden, um Text zu generieren. Weitere Informationen zu unterstützten Modellen finden Sie in der Syntax fürML.GENERATE_TEXT
.ML.TRANSCRIBE
: Sie verwenden das Standardmodell der Speech-to-Text API. Mit der Document AI API erhalten Sie Zugriff auf die Transkription mit dem Chirp-Sprachmodell.
Unterstützte Aufgaben
Folgende Aufgaben werden unterstützt:
ML.GENERATE_TEXT
: Sie können Audiotranskriptionen und Aufgaben zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ausführen.ML.TRANSCRIBE
: Sie können eine Audiotranskription durchführen.
Preise
Die Kosten werden folgendermaßen berechnet:
ML.GENERATE_TEXT
: Informationen zu den Preisen für die Vertex AI-Modelle, die Sie mit dieser Funktion verwenden, finden Sie unter Vertex AI-Preise. Die überwachte Abstimmung unterstützter Modelle wird pro Knoten und Stunde in US-Dollar berechnet. Weitere Informationen finden Sie unter Preise für benutzerdefiniertes Training in Vertex AI.ML.TRANSCRIBE
: Die Preise für den Cloud-KI-Dienst, den Sie mit dieser Funktion verwenden, finden Sie unter Preise für die Speech-to-Text API.
Überwachte Abstimmung
Die überwachte Abstimmung wird so unterstützt:
ML.GENERATE_TEXT
: Für einige Modelle wird die überwachte Abstimmung unterstützt.ML.TRANSCRIBE
: Die überwachte Abstimmung wird nicht unterstützt.
Limit für Abfragen pro Minute
Die Limits für die Anzahl der Aufrufe pro Minute sind:
ML.GENERATE_TEXT
: 60 QPM in der Standardregionus-central1
fürgemini-1.5-pro
-Modelle und 200 QPM in der Standardregionus-central1
fürgemini-1.5-flash
-Modelle. Weitere Informationen finden Sie unter Kontingente für Generative AI in Vertex AI.ML.TRANSCRIBE
: 900 QPM pro Projekt. Weitere Informationen finden Sie unter Kontingente und Limits.
Informationen zum Erhöhen des Kontingents finden Sie unter Höheres Kontingent anfordern.
Tokenlimit
Die Tokenlimits sind:
ML.GENERATE_TEXT
: 700 Eingabetokens und 8.196 Ausgabetokens. Aufgrund dieses Ausgabetokenslimits beträgt die maximale Länge eines einzelnen Audioclips beiML.GENERATE_TEXT
etwa 39 Minuten.ML.TRANSCRIBE
: Kein Tokenlimit. Für diese Funktion gilt jedoch ein Limit von 480 Minuten für einen einzelnen Audioclip.
Unterstützte Sprachen
Folgende Sprachen werden unterstützt:
ML.GENERATE_TEXT
: unterstützt dieselben Sprachen wie Gemini.ML.TRANSCRIBE
: Unterstützt alle von der Spracheingabe unterstützten Sprachen.
Regionale Verfügbarkeit
Die regionale Verfügbarkeit ist so:
ML.GENERATE_TEXT
: Verfügbar in allen Regionen, in denen generative KI für Vertex AI unterstützt wird.ML.TRANSCRIBE
: verfügbar in den MultiregionenEU
undUS
für alle Spracherkennungsmodelle.