音声エンコードについては、Speech-to-Text ドキュメントの音声エンコードの概要をご覧ください。
サポートされている音声エンコード
Media Translation API は、さまざまなエンコードをサポートしています。次の表に、サポートされているオーディオ コーデックをリスト表示します。
コーデック | 名前 | ロスレス | 使用上の注意 |
---|---|---|---|
AMR |
Adaptive Multi-Rate Narrowband | × | サンプルレートは 8,000 Hz にする必要があります |
AMR_WB |
Adaptive Multi-Rate Wideband | × | サンプルレートは 16,000 Hz にする必要があります |
FLAC |
Free Lossless Audio Codec | ○ | ストリームには 16 ビットまたは 24 ビットが必要 |
LINEAR16 |
Linear PCM | ○ | 16 ビット リニアパルス符号変調(PCM)エンコード |
MP3 |
MPEG オーディオ レイヤ III | × | MP3 オーディオ。すべての標準的な MP3 ビットレート(32~320 kbps の範囲)をサポートします。このエンコードを使用する場合、sample_rate_hertz は、使用するファイルのサンプルレートと一致する必要があります。 |
MULAW |
μ-law | × | 8 ビット PCM エンコード |
OGG_OPUS |
Ogg コンテナ内の Opus でエンコードされた音声フレーム | × | サンプルレートは 8,000 Hz、12,000 Hz、16,000 Hz、24,000 Hz、48,000 Hz のいずれかにする必要があります |