音声文字変換

音声文字変換は、動画または動画セグメント内の音声をテキストに変換し、変換された音声の各部分に対応するテキストのブロックを返します。

サポートされているモデル

Video Intelligence は英語(米国)のみをサポートしています。その他の言語については、Speech-to-Text API を使用してください。この API では、利用可能なすべての言語がサポートされています。使用可能な言語の一覧については、Speech-to-Text のドキュメントの言語サポートをご覧ください。

動画から音声を文字に変換するには、annotate メソッドを呼び出し、features フィールドに SPEECH_TRANSCRIPTION を指定します。

音声文字変換を行うとき、次の機能を使用できます。

  • 代替候補: maxAlternatives オプションを使用して、レスポンスに含める認識結果候補の最大数を指定できます。指定できる値は 1~30 の整数です。デフォルトは 1 です。 認識結果の信頼値に基づいて、複数の候補が降順で返されます。代替候補には単語レベルのエントリは含まれません。

  • 冒とく的な表現のフィルタリング: filterProfanity オプションを使用して、既知の冒とく的な表現を除去できます。該当する単語は先頭の文字のみが残され、以降はアスタリスクに置き換えられます。デフォルトは false です。

  • 音声文字変換のヒント: speechContexts オプションを使用して、動画の中で話されている一般的なフレーズや珍しいフレーズを提供できます。音声文字変換サービスはこれらのフレーズを参考にして、文字起こしの精度を向上させます。音声文字変換のヒントは SpeechContext オブジェクトとして提供します。

  • 音声トラックの選択: audioTracks オプションを使用して、マルチトラック動画から文字変換するトラックを指定します。最大 2 つのトラックを指定できます。デフォルト値は 0 です。 言語コードが en-US に設定されると、リクエストが拡張モードに転送されます。このモードは、en-US 音声でトレーニングされます。en-US も他の言語も、そのままでは認識されません。 スペイン語の音声を拡張モデルに送り出すと、音声文字変換が一通り実行されますが、信頼性の低い結果が出力されるか、何も出力されません。これは、優れたモデルに期待されている特性です。

  • 自動句読点: enableAutomaticPunctuation オプションを使用して、文字起こしされたテキストに句読点を入れることができます。デフォルトは false です。

  • 複数の話者: enableSpeakerDiarization オプションを使用して、動画内の異なる話者を識別できます。レスポンスでは、認識された単語ごとに、その単語を発した話者を識別する speakerTag フィールドが含められます。

最良の結果を得るには、16,000 Hz 以上のサンプリング レートで録音された音声を使用してください。

Video Intelligence API ビジュアライザをご覧いただき、この機能の動作をご確認ください。

音声文字変換のリクエストの例については、音声文字変換をご覧ください。