音声エンコードの概要

音声エンコードのコンセプトについては、Cloud Speech-to-Text に関するページをご覧ください。

サポートされている音声エンコード

Media Translation API は、さまざまなエンコードをサポートしています。次の表に、サポートされているオーディオ コーデックをリスト表示します。

コーデック 名前 ロスレス 使用上の注意
AMR Adaptive Multi-Rate Narrowband × サンプルレートは 8,000 Hz にする必要があります
AMR_WB Adaptive Multi-Rate Wideband × サンプルレートは 16,000 Hz にする必要があります
FLAC Free Lossless Audio Codec ストリームには 16 ビットまたは 24 ビットが必要
LINEAR16 Linear PCM 16 ビット リニアパルス符号変調(PCM)エンコード
MP3 MPEG オーディオ レイヤ III × MP3 オーディオ。すべての標準的な MP3 ビットレート(32~320 kbps の範囲)をサポートします。このエンコードを使用する場合、sample_rate_hertz は、使用するファイルのサンプルレートと一致する必要があります。
MULAW μ-law × 8 ビット PCM エンコード
OGG_OPUS Ogg コンテナ内の Opus でエンコードされた音声フレーム × サンプルレートは 8,000 Hz、12,000 Hz、16,000 Hz、24,000 Hz、48,000 Hz のいずれかにする必要があります