Diese Seite wurde von der Cloud Translation API übersetzt.

Transkriptionsfunktion auswählen

In diesem Dokument werden die in BigQuery ML verfügbaren Transkriptionsfunktionen verglichen: ML.GENERATE_TEXT und ML.TRANSCRIBE.

Anhand der Informationen in diesem Dokument können Sie entscheiden, welche Funktion Sie verwenden sollten, wenn sich die Funktionen in ihren Capabilities überschneiden.

Grob gesagt unterscheiden sich diese Funktionen so:

ML.GENERATE_TEXT eignet sich gut für die Transkription von Audioclips mit einer Länge von maximal 10 Minuten. Außerdem können Sie damit Aufgaben für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ausführen. Die Audiotranskription mit ML.GENERATE_TEXT ist bei Verwendung des gemini-1.5-flash-Modells günstiger als mit ML.TRANSCRIBE.
ML.TRANSCRIBE eignet sich gut für die Transkription von Audioclips, die länger als 10 Minuten sind. Außerdem wird eine größere Auswahl an Sprachen unterstützt als bei ML.GENERATE_TEXT.

Unterstützte Modelle

Folgende Modelle werden unterstützt:

ML.GENERATE_TEXT: Sie können einen Teil der Vertex AI-Gemini-Modelle verwenden, um Text zu generieren. Weitere Informationen zu unterstützten Modellen finden Sie in der Syntax für ML.GENERATE_TEXT.
ML.TRANSCRIBE: Sie verwenden das Standardmodell der Speech-to-Text API. Mit der Document AI API erhalten Sie Zugriff auf die Transkription mit dem Chirp-Sprachmodell.

Unterstützte Aufgaben

Folgende Aufgaben werden unterstützt:

ML.GENERATE_TEXT: Sie können Audiotranskriptionen und Aufgaben zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ausführen.
ML.TRANSCRIBE: Sie können eine Audiotranskription durchführen.

Preise

Die Kosten werden folgendermaßen berechnet:

ML.GENERATE_TEXT: Informationen zu den Preisen für die Vertex AI-Modelle, die Sie mit dieser Funktion verwenden, finden Sie unter Vertex AI-Preise. Die überwachte Abstimmung unterstützter Modelle wird in US-Dollar pro Knotenstunde berechnet. Weitere Informationen finden Sie unter Preise für benutzerdefiniertes Training in Vertex AI.
ML.TRANSCRIBE: Preise für den Cloud-KI-Dienst, den Sie mit dieser Funktion verwenden, finden Sie unter Preise für die Speech-to-Text API.

Überwachte Abstimmung

Die überwachte Abstimmung wird so unterstützt:

ML.GENERATE_TEXT: Für einige Modelle wird die überwachte Abstimmung unterstützt.
ML.TRANSCRIBE: Die überwachte Abstimmung wird nicht unterstützt.

Limit für Abfragen pro Minute

Die Limits für die Anzahl der Aufrufe pro Minute sind:

ML.GENERATE_TEXT: 60 QPM in der Standardregion us-central1 für gemini-1.5-pro-Modelle und 200 QPM in der Standardregion us-central1 für gemini-1.5-flash-Modelle. Weitere Informationen finden Sie unter Kontingente für Generative AI in Vertex AI.
ML.TRANSCRIBE: 900 QPM pro Projekt. Weitere Informationen finden Sie unter Kontingente und Limits.

Informationen zum Erhöhen des Kontingents finden Sie unter Höheres Kontingent anfordern.

Tokenlimit

Die Tokenlimits sind:

ML.GENERATE_TEXT: 700 Eingabetokens und 8.196 Ausgabetokens. Aufgrund dieses Ausgabetokenslimits beträgt die maximale Länge eines einzelnen Audioclips bei ML.GENERATE_TEXT etwa 39 Minuten.
ML.TRANSCRIBE: Kein Tokenlimit. Für diese Funktion gilt jedoch ein Limit von 480 Minuten für einen einzelnen Audioclip.

Unterstützte Sprachen

Folgende Sprachen werden unterstützt:

ML.GENERATE_TEXT: unterstützt dieselben Sprachen wie Gemini.
ML.TRANSCRIBE: Unterstützt alle von der Funktion „Sprache in Text umwandeln“ unterstützten Sprachen.

Regionale Verfügbarkeit

Die regionale Verfügbarkeit ist so:

ML.GENERATE_TEXT: Verfügbar in allen Regionen, in denen generative KI für Vertex AI unterstützt wird.
ML.TRANSCRIBE: verfügbar in den Multiregionen EU und US für alle Spracherkennungsmodelle.