Mit der Sprachtranskription werden gesprochene Audiodaten in einem Video oder Videosegment in Text transkribiert und Textblöcke für jeden Teil des transkribierten Audios zurückgegeben.
Unterstützte Modelle
Video Intelligence unterstützt nur Englisch (US). Für andere Sprachen verwenden Sie die Speech-to-Text API, die alle verfügbaren Sprachen unterstützt. Eine Liste der verfügbaren Sprachen finden Sie in der Speech-to-Text-Dokumentation unter Sprachunterstützung.
Rufen Sie zum Transkribieren von Sprache aus einem Video die Methode annotate
auf und geben Sie SPEECH_TRANSCRIPTION
in der features
an.
Sie können die folgenden Funktionen beim Transkribieren von Sprache verwenden:
Alternative Wörter: Mit der Option
maxAlternatives
können Sie die maximale Anzahl von Optionen für erkannte Textübersetzungen angeben, die in die Antwort aufgenommen werden sollen. Dieser Wert kann eine Ganzzahl von 1 bis 30 sein. Der Standardwert ist 1. Die API gibt mehrere Transkriptionen in absteigender Reihenfolge basierend auf dem Konfidenzwert für die Transkription zurück. Alternative Transkriptionen enthalten keine Einträge auf Wortebene.Filtern von vulgärer Sprache: Mit der Option
filterProfanity
können Sie bekannte vulgäre Ausdrücke in Transkriptionen herausfiltern. Übereinstimmende Wörter werden durch den Anfangsbuchstaben des Worts gefolgt von Sternchen ersetzt. Der Standardwert ist "false".Transkriptionshinweise: Verwenden Sie die Option
speechContexts
, um allgemeine oder ungewöhnliche Wortgruppen in der Audiodatei zu nutzen. Diese Wortgruppen werden dann verwendet, um den Transkriptionsdienst dabei zu unterstützen, genauere Transkriptionen zu erstellen. Ein Transkriptionshinweis lässt sich als SpeechContext-Objekt angeben.Auswahl von Audiotracks:: Mit der Option
audioTracks
geben Sie an, welche Spur aus dem mehrspurigen Video transkribiert werden soll. Nutzer können bis zu zwei Titel angeben. Die Standardeinstellung ist 0. Sobald der Sprachcode auf "en-US" festgelegt ist, wird die Anfrage an den erweiterten Modus weitergeleitet, der mit US-Audiodateien trainiert wird. Es kennt en-US oder andere Sprachen nicht per se. Wenn wir eine spanische Audiodatei in das erweiterte Modell einspeisen, läuft die Transkription zwar, aber es kann zu Ausgaben mit niedrigen Konfidenzwerten oder gar keiner Ausgabe kommen. Dies wird von einem guten Modell erwartet.Automatische Satzzeichen: Mit der Option
enableAutomaticPunctuation
fügen Sie Satzzeichen in den transkribierten Text ein. Der Standardwert ist "false".Mehrere Sprecher: Mit der Option
enableSpeakerDiarization
können Sie unterschiedliche Sprecher in einem Video identifizieren. In der Antwort enthält jedes erkannte Wort das FeldspeakerTag
. In diesem Feld wird angegeben, welchem Sprecher das erkannte Wort zugeordnet wird.
Optimale Ergebnisse erzielen Sie, wenn Sie Audiodaten bereitstellen, die mit einer Abtastrate von mindestens 16.000 Hz aufgezeichnet wurden.
Sehen Sie sich den Video Intelligence API-Visualisierer an, um diese Funktion in Aktion zu sehen.
Beispiele für das Anfordern von Sprachtranskription finden Sie unter Sprachtranskription.