REST リソース: projects.locations.datasets.dictationStores.speechConfigs

リソース: SpeechConfig

トレーニングと適応をサポートする構成レコード。実際の人間の話者は SpeechConfig 構成を共有しているか、それぞれに個別の構成があります。

JSON 表現

{
  "name": string,
  "recognitionConfig": {
    object (RecognitionConfig)
  },
  "speakerExternalId": string,
  "speakerHumanName": string
}
フィールド
name

string

projects/{project_id}/locations/{locationId}/datasets/{datasetId}/dictationStores/{dictationStoreId}/speechConfigs/{speech_config_id} 形式の Note のリソース名。サーバーによって割り当てられます。

recognitionConfig

object (RecognitionConfig)

認識機能にリクエストの処理方法を指定する情報を提供します。

speakerExternalId

string

特定の Config を選択するために使用できる外部システムの ID。

speakerHumanName

string

指定された場合の人名。

RecognitionConfig

認識機能にリクエストの処理方法を指定する情報を提供します。

JSON 表現

{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": number,
  "audioChannelCount": number,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "contextPhrases": [
    string
  ],
  "model": string
}
フィールド
encoding

enum (AudioEncoding)

すべての RecognitionAudio メッセージで送信される音声データのエンコード。このフィールドは、FLAC および WAV 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、AudioEncoding をご覧ください。

sampleRateHertz

number

すべての RecognitionAudio メッセージで送信される音声データのサンプリング レート(ヘルツ単位)。有効な値は 8,000~48,000 です。16,000 が最適な値です。最良の結果を得るには、音源のサンプリング レートを 16,000 Hz に設定します。不可能な場合は、(再サンプリングせずに)音源のネイティブ サンプリング レートを使用します。このフィールドは、FLAC および WAV 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、AudioEncoding をご覧ください。

audioChannelCount

number

入力音声データのチャンネル数。MULTI-CHANNEL 認識の場合にのみ設定します。LINEAR16 と FLAC の有効な値は 18 です。OGG_OPUS の有効な値は「1」~「254」です。MULAW、AMR、AMR_WB、SPEEX_WITH_HEADER_BYTE の有効な値は 1 のみです。0 を指定した場合または省略した場合、デフォルトの 1 チャンネル(モノラル)に設定されます。注: デフォルトでは最初のチャンネルのみ認識されます。チャンネルごとに個別に認識させるには、enableSeparateRecognitionPerChannel を「true」に設定します。

enableSeparateRecognitionPerChannel

boolean

各チャンネルを個別に認識させるには、これを明示的に「true」に設定し、audio_channel_count を 1 よりも大きい値に設定する必要があります。認識結果には、結果が属するチャンネルを示す channel_tag フィールドが含まれます。true でない場合は、最初のチャンネルのみが認識されます。

languageCode

string

提供された音声の言語を、BCP-47 言語タグで表したもの。例: "en-US"。現在サポートされている言語コードのリストについては、言語のサポートをご覧ください。

contextPhrases[]

string

音声認識で認識されやすくするための単語やフレーズの「ヒント」を含む文字列のリスト。これは、特定の単語やフレーズの精度を向上させるために使用できます。たとえば、ユーザーが特定のコマンドを読み上げる場合などです。また、認識機能の語彙に語句を追加するためにも使用できます。

model

string

指定されたリクエストに選択するモデル。モデルが明示的に指定されていない場合は、デフォルト値の「default」が使用されます。

AudioEncoding

リクエストで送信される音声データのエンコード。

すべてのエンコードで 1 チャンネル(モノラル)の音声のみがサポートされます。

最良の結果を得るには、FLACLINEAR16 などのロスレス エンコードを使用して音声ソースをキャプチャして送信します。ロッシー コーデックを使用して音声をキャプチャまたは転送した場合、特に背景ノイズがある場合に、音声認識の精度が低下する可能性があります。ロッシー コーデックには、MULAWAMRAMR_WBOGG_OPUSSPEEX_WITH_HEADER_BYTE があります。

FLAC および WAV 音声ファイル形式には、含まれている音声コンテンツを記述したヘッダーが含まれます。LINEAR16 または MULAW でエンコードされた音声を含む WAV ファイルの認識をリクエストできます。リクエストで FLAC または WAV の音声ファイル形式を送信する場合、AudioEncoding を指定する必要はありません。音声エンコード形式はファイル ヘッダーから決定されます。FLAC または WAV 音声を送信するときに AudioEncoding を指定する場合、そのエンコード構成は音声ヘッダーに記述されているエンコードと一致している必要があります。それ以外の場合、リクエストは google.rpc.Code.INVALID_ARGUMENT を返します。

列挙型
ENCODING_UNSPECIFIED 指定なし。
LINEAR16 非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。
FLAC FLAC(Free Lossless Audio Codec)はロスレスである(したがって、認識は損なわれない)ため推奨されるエンコード方式であり、LINEAR16 の約半分の帯域幅しか必要としません。FLAC ストリーム エンコードは 16 ビットと 24 ビットのサンプルをサポートしていますが、STREAMINFO のすべてのフィールドがサポートされているわけではありません。
MULAW G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。
AMR Adaptive Multi-Rate Narrowband コーデック。sampleRateHertz は 8,000 にする必要があります。
AMR_WB Adaptive Multi-Rate Wideband コーデック。sampleRateHertz は 16,000 にする必要があります。
OGG_OPUS Ogg コンテナに格納された Opus エンコード形式の音声フレーム(OggOpus)。sampleRateHertz は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。
SPEEX_WITH_HEADER_BYTE ロッシー エンコードの使用は推奨されませんが、非常に低いビットレートのエンコードが必要な場合は、OGG_OPUS が Speex エンコードよりも強く推奨されます。Cloud Speech API でサポートされている Speex エンコードは、MIME タイプの audio/x-speex-with-header-byte と同様に、各ブロックにヘッダーバイトがあります。これは RFC 5574 で定義されている RTP Speex エンコードのバリアントです。ストリームは一連のブロックから成り、RTP パケットごとに 1 つのブロックがあります。各ブロックはブロックの長さ(バイト単位)を含むバイトから始まり、その後に 1 つ以上の Speex データのフレームが続きます。各データフレームは RFC 5574 で指定された整数バイト数(オクテット)になるようにパディングされます。言い換えると、各 RTP ヘッダーはブロック長を含む単一のバイトに置き換えられます。Speex ワイドバンドのみがサポートされています。sampleRateHertz は 16000 にする必要があります。

メソッド

create

新しい SpeechConfig を作成します。

delete

SpeechConfig を削除するか、存在しない場合は NOT_FOUND を返します。

get

SpeechConfig 構成を取得します。

list

指定された Dictation store 内のすべての SpeechConfigs を一覧表示し、フィルタリングをサポートします。

patch

SpeechConfig を更新します。