REST リソース: projects.locations.datasets.dictationStores.speechConfigs

リソース: SpeechConfig

トレーニングと適応をサポートする構成レコード。実際の人間の話者は SpeechConfig 構成を共有しているか、それぞれに個別の構成があります。

JSON 表現
{ "name": string, "recognitionConfig": { object (`RecognitionConfig`) }, "speakerExternalId": string, "speakerHumanName": string }

フィールド
`name`	`string` `projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id}` 形式の Note のリソース名。サーバーによって割り当てられます。
`recognitionConfig`	`object (RecognitionConfig)` 認識機能にリクエストの処理方法を指定する情報を提供します。
`speakerExternalId`	`string` 特定の Config を選択するために使用できる外部システムの ID。
`speakerHumanName`	`string` 指定された場合の人名。

RecognitionConfig

認識機能にリクエストの処理方法を指定する情報を提供します。

JSON 表現

JSON 表現
{ "encoding": enum (`AudioEncoding`), "sampleRateHertz": number, "audioChannelCount": number, "enableSeparateRecognitionPerChannel": boolean, "languageCode": string, "contextPhrases": [ string ], "model": string }


{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}

フィールド
`encoding`	`enum (AudioEncoding)` すべての `RecognitionAudio` メッセージで送信される音声データのエンコード。このフィールドは、`FLAC` および `WAV` 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、`AudioEncoding` をご覧ください。
`sampleRateHertz`	`number` すべての `RecognitionAudio` メッセージで送信される音声データのサンプリングレート（ヘルツ単位）。有効な値は 8,000～48,000 です。16,000 が最適な値です。最良の結果を得るには、音源のサンプリングレートを 16,000 Hz に設定します。不可能な場合は、（再サンプリングせずに）音源のネイティブサンプリングレートを使用します。このフィールドは、`FLAC` および `WAV` 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、`AudioEncoding` をご覧ください。
`audioChannelCount`	`number` 入力音声データのチャンネル数。MULTI-CHANNEL 認識の場合にのみ設定します。LINEAR16 と FLAC の有効な値は `1`～`8` です。OGG_OPUS の有効な値は「1」～「254」です。MULAW、AMR、AMR_WB、SPEEX_WITH_HEADER_BYTE の有効な値は `1` のみです。`0` を指定した場合または省略した場合、デフォルトの 1 チャンネル（モノラル）に設定されます。注: デフォルトでは最初のチャンネルのみ認識されます。チャンネルごとに個別に認識させるには、enableSeparateRecognitionPerChannel を「true」に設定します。
`enableSeparateRecognitionPerChannel`	`boolean` 各チャンネルを個別に認識させるには、これを明示的に「true」に設定し、audio_channel_count を 1 よりも大きい値に設定する必要があります。認識結果には、結果が属するチャンネルを示す channel_tag フィールドが含まれます。true でない場合は、最初のチャンネルのみが認識されます。
`languageCode`	`string` 提供された音声の言語を、BCP-47 言語タグで表したもの。例: "en-US"。現在サポートされている言語コードのリストについては、言語のサポートをご覧ください。
`contextPhrases[]`	`string` 音声認識で認識されやすくするための単語やフレーズの「ヒント」を含む文字列のリスト。これは、特定の単語やフレーズの精度を向上させるために使用できます。たとえば、ユーザーが特定のコマンドを読み上げる場合などです。また、認識機能の語彙に語句を追加するためにも使用できます。
`model`	`string` 指定されたリクエストに選択するモデル。モデルが明示的に指定されていない場合は、デフォルト値の「default」が使用されます。

AudioEncoding

リクエストで送信される音声データのエンコード。

すべてのエンコードで 1 チャンネル（モノラル）の音声のみがサポートされます。

最良の結果を得るには、FLAC や LINEAR16 などのロスレスエンコードを使用して音声ソースをキャプチャして送信します。ロッシーコーデックを使用して音声をキャプチャまたは転送した場合、特に背景ノイズがある場合に、音声認識の精度が低下する可能性があります。ロッシーコーデックには、MULAW、AMR、AMR_WB、OGG_OPUS、SPEEX_WITH_HEADER_BYTE があります。

FLAC および WAV 音声ファイル形式には、含まれている音声コンテンツを記述したヘッダーが含まれます。LINEAR16 または MULAW でエンコードされた音声を含む WAV ファイルの認識をリクエストできます。リクエストで FLAC または WAV の音声ファイル形式を送信する場合、AudioEncoding を指定する必要はありません。音声エンコード形式はファイルヘッダーから決定されます。FLAC または WAV 音声を送信するときに AudioEncoding を指定する場合、そのエンコード構成は音声ヘッダーに記述されているエンコードと一致している必要があります。それ以外の場合、リクエストは google.rpc.Code.INVALID_ARGUMENT を返します。

列挙型
`ENCODING_UNSPECIFIED`	指定なし。
`LINEAR16`	非圧縮 16 ビット符号付きリトルエンディアンのサンプル（Linear PCM）。
`FLAC`	`FLAC`（Free Lossless Audio Codec）はロスレスである（したがって、認識は損なわれない）ため推奨されるエンコード方式であり、`LINEAR16` の約半分の帯域幅しか必要としません。`FLAC` ストリームエンコードは 16 ビットと 24 ビットのサンプルをサポートしていますが、`STREAMINFO` のすべてのフィールドがサポートされているわけではありません。
`MULAW`	G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。
`AMR`	Adaptive Multi-Rate Narrowband コーデック。`sampleRateHertz` は 8,000 にする必要があります。
`AMR_WB`	Adaptive Multi-Rate Wideband コーデック。`sampleRateHertz` は 16,000 にする必要があります。
`OGG_OPUS`	Ogg コンテナに格納された Opus エンコード形式の音声フレーム（OggOpus）。`sampleRateHertz` は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。
`SPEEX_WITH_HEADER_BYTE`	ロッシーエンコードの使用は推奨されませんが、非常に低いビットレートのエンコードが必要な場合は、`OGG_OPUS` が Speex エンコードよりも強く推奨されます。Cloud Speech API でサポートされている Speex エンコードは、MIME タイプの `audio/x-speex-with-header-byte` と同様に、各ブロックにヘッダーバイトがあります。これは RFC 5574 で定義されている RTP Speex エンコードのバリアントです。ストリームは一連のブロックから成り、RTP パケットごとに 1 つのブロックがあります。各ブロックはブロックの長さ（バイト単位）を含むバイトから始まり、その後に 1 つ以上の Speex データのフレームが続きます。各データフレームは RFC 5574 で指定された整数バイト数（オクテット）になるようにパディングされます。言い換えると、各 RTP ヘッダーはブロック長を含む単一のバイトに置き換えられます。Speex ワイドバンドのみがサポートされています。`sampleRateHertz` は 16000 にする必要があります。

メソッド
`create`	新しい `SpeechConfig` を作成します。
`delete`	`SpeechConfig` を削除するか、存在しない場合は NOT_FOUND を返します。
`get`	`SpeechConfig` 構成を取得します。
`list`	指定された `Dictation store` 内のすべての `SpeechConfigs` を一覧表示し、フィルタリングをサポートします。
`patch`	`SpeechConfig` を更新します。

REST リソース: projects.locations.datasets.dictationStores.speechConfigs

リソース: SpeechConfig

RecognitionConfig

AudioEncoding

メソッド

`create`

`delete`

`get`

`list`

`patch`