リソース: SpeechConfig
トレーニングと適応をサポートする構成レコード。実際の人間の話者は SpeechConfig 構成を共有しているか、それぞれに個別の構成があります。
JSON 表現 | |
---|---|
{
"name": string,
"recognitionConfig": {
object ( |
フィールド | |
---|---|
name |
|
recognitionConfig |
認識機能にリクエストの処理方法を指定する情報を提供します。 |
speakerExternalId |
特定の Config を選択するために使用できる外部システムの ID。 |
speakerHumanName |
指定された場合の人名。 |
RecognitionConfig
認識機能にリクエストの処理方法を指定する情報を提供します。
JSON 表現 | |
---|---|
{
"encoding": enum ( |
フィールド | |
---|---|
encoding |
すべての |
sampleRateHertz |
すべての |
audioChannelCount |
入力音声データのチャンネル数。MULTI-CHANNEL 認識の場合にのみ設定します。LINEAR16 と FLAC の有効な値は |
enableSeparateRecognitionPerChannel |
各チャンネルを個別に認識させるには、これを明示的に「true」に設定し、audio_channel_count を 1 よりも大きい値に設定する必要があります。認識結果には、結果が属するチャンネルを示す channel_tag フィールドが含まれます。true でない場合は、最初のチャンネルのみが認識されます。 |
languageCode |
提供された音声の言語を、BCP-47 言語タグで表したもの。例: "en-US"。現在サポートされている言語コードのリストについては、言語のサポートをご覧ください。 |
contextPhrases[] |
音声認識で認識されやすくするための単語やフレーズの「ヒント」を含む文字列のリスト。これは、特定の単語やフレーズの精度を向上させるために使用できます。たとえば、ユーザーが特定のコマンドを読み上げる場合などです。また、認識機能の語彙に語句を追加するためにも使用できます。 |
model |
指定されたリクエストに選択するモデル。モデルが明示的に指定されていない場合は、デフォルト値の「default」が使用されます。 |
AudioEncoding
リクエストで送信される音声データのエンコード。
すべてのエンコードで 1 チャンネル(モノラル)の音声のみがサポートされます。
最良の結果を得るには、FLAC
や LINEAR16
などのロスレス エンコードを使用して音声ソースをキャプチャして送信します。ロッシー コーデックを使用して音声をキャプチャまたは転送した場合、特に背景ノイズがある場合に、音声認識の精度が低下する可能性があります。ロッシー コーデックには、MULAW
、AMR
、AMR_WB
、OGG_OPUS
、SPEEX_WITH_HEADER_BYTE
があります。
FLAC
および WAV
音声ファイル形式には、含まれている音声コンテンツを記述したヘッダーが含まれます。LINEAR16
または MULAW
でエンコードされた音声を含む WAV
ファイルの認識をリクエストできます。リクエストで FLAC
または WAV
の音声ファイル形式を送信する場合、AudioEncoding
を指定する必要はありません。音声エンコード形式はファイル ヘッダーから決定されます。FLAC
または WAV
音声を送信するときに AudioEncoding
を指定する場合、そのエンコード構成は音声ヘッダーに記述されているエンコードと一致している必要があります。それ以外の場合、リクエストは google.rpc.Code.INVALID_ARGUMENT
を返します。
列挙型 | |
---|---|
ENCODING_UNSPECIFIED |
指定なし。 |
LINEAR16 |
非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。 |
FLAC |
FLAC (Free Lossless Audio Codec)はロスレスである(したがって、認識は損なわれない)ため推奨されるエンコード方式であり、LINEAR16 の約半分の帯域幅しか必要としません。FLAC ストリーム エンコードは 16 ビットと 24 ビットのサンプルをサポートしていますが、STREAMINFO のすべてのフィールドがサポートされているわけではありません。 |
MULAW |
G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。 |
AMR |
Adaptive Multi-Rate Narrowband コーデック。sampleRateHertz は 8,000 にする必要があります。 |
AMR_WB |
Adaptive Multi-Rate Wideband コーデック。sampleRateHertz は 16,000 にする必要があります。 |
OGG_OPUS |
Ogg コンテナに格納された Opus エンコード形式の音声フレーム(OggOpus)。sampleRateHertz は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。 |
SPEEX_WITH_HEADER_BYTE |
ロッシー エンコードの使用は推奨されませんが、非常に低いビットレートのエンコードが必要な場合は、OGG_OPUS が Speex エンコードよりも強く推奨されます。Cloud Speech API でサポートされている Speex エンコードは、MIME タイプの audio/x-speex-with-header-byte と同様に、各ブロックにヘッダーバイトがあります。これは RFC 5574 で定義されている RTP Speex エンコードのバリアントです。ストリームは一連のブロックから成り、RTP パケットごとに 1 つのブロックがあります。各ブロックはブロックの長さ(バイト単位)を含むバイトから始まり、その後に 1 つ以上の Speex データのフレームが続きます。各データフレームは RFC 5574 で指定された整数バイト数(オクテット)になるようにパディングされます。言い換えると、各 RTP ヘッダーはブロック長を含む単一のバイトに置き換えられます。Speex ワイドバンドのみがサポートされています。sampleRateHertz は 16000 にする必要があります。 |
メソッド |
|
---|---|
|
新しい SpeechConfig を作成します。 |
|
SpeechConfig を削除するか、存在しない場合は NOT_FOUND を返します。 |
|
SpeechConfig 構成を取得します。 |
|
指定された Dictation store 内のすべての SpeechConfigs を一覧表示し、フィルタリングをサポートします。 |
|
SpeechConfig を更新します。 |