索引
DictationService
(インターフェース)CreateDictationRequest
(メッセージ)CreateDictationStoreRequest
(メッセージ)CreateNoteRequest
(メッセージ)CreateSpeechConfigRequest
(メッセージ)DeleteDictationRequest
(メッセージ)DeleteDictationStoreRequest
(メッセージ)DeleteNoteRequest
(メッセージ)DeleteSpeechConfigRequest
(メッセージ)Dictation
(メッセージ)DictationStore
(メッセージ)GetDictationRequest
(メッセージ)GetDictationStoreRequest
(メッセージ)GetNoteRequest
(メッセージ)GetSpeechConfigRequest
(メッセージ)ListDictationStoresRequest
(メッセージ)ListDictationStoresResponse
(メッセージ)ListDictationsRequest
(メッセージ)ListDictationsResponse
(メッセージ)ListNotesRequest
(メッセージ)ListNotesResponse
(メッセージ)ListSpeechConfigsRequest
(メッセージ)ListSpeechConfigsResponse
(メッセージ)Note
(メッセージ)Note.Type
(enum)RecognitionAudio
(メッセージ)RecognitionConfig
(メッセージ)RecognitionConfig.AudioEncoding
(enum)RecognizeRequest
(メッセージ)RecognizeResponse
(メッセージ)RecognizedAction
(メッセージ)RecognizedActionParameter
(メッセージ)SpeechConfig
(メッセージ)SpeechRecognitionResult
(メッセージ)StreamingRecognitionResult
(メッセージ)StreamingRecognizeRequest
(メッセージ)StreamingRecognizeResponse
(メッセージ)StreamingRecognizeResponse.SpeechEventType
(enum)TrainingConsent
(enum)UpdateDictationRequest
(メッセージ)UpdateDictationStoreRequest
(メッセージ)UpdateNoteRequest
(メッセージ)UpdateSpeechConfigRequest
(メッセージ)WordInfo
(メッセージ)
DictationService
医療ディクテーション リクエストを処理するサービス。Dictation データは、他の医療モダリティとともにデータセットに保存されます。各データセットには 0 個以上のモダリティ データストアを含めることが可能です(dictation stores
など)。Dictation 音声(Dictations
)と文字起こしの結果(Notes
)は、Dictation ストアに保存される 2 つの主なデータ型です。SpeechConfigs
は、自動音声認識に使用されるパラメータをエンコードしています。
CreateDictation | |
---|---|
新しい
|
CreateDictationStore | |
---|---|
親データセット内に新しい
|
CreateNote | |
---|---|
新しい
|
CreateSpeechConfig | |
---|---|
新しい
|
DeleteDictation | |
---|---|
|
DeleteDictationStore | |
---|---|
指定された
|
DeleteNote | |
---|---|
既存の
|
DeleteSpeechConfig | |
---|---|
|
GetDictation | |
---|---|
|
GetDictationStore | |
---|---|
指定された
|
GetIamPolicy | |
---|---|
リソースのアクセス制御ポリシーを取得します。リソースが存在しない場合、NOT_FOUND エラーを返します。リソースが存在し、ポリシーが設定されていない場合、空のポリシーを返します。 承認には、指定されたリソースに対する Google IAM の権限
|
GetNote | |
---|---|
|
GetSpeechConfig | |
---|---|
|
ListDictationStores | |
---|---|
指定されたデータセット内の
|
ListDictations | |
---|---|
指定した
|
ListNotes | |
---|---|
指定された
|
ListSpeechConfigs | |
---|---|
指定された
|
Recognize | |
---|---|
非同期音声認識を実行します。
|
SetIamPolicy | |
---|---|
リソースのアクセス制御ポリシーを設定します。既存のポリシーをすべて置き換えます。 承認には、指定されたリソースに対する Google IAM の権限
|
StreamingRecognize | |
---|---|
双方向ストリーミング音声認識を実行します。これにより、クライアントは音声を送信しながら結果を受け取ります。このメソッドは、(REST ではなく)gRPC API を介してのみ使用できます。このメソッドを介して送信された音声は、リクエストで指定された
|
TestIamPermissions | |
---|---|
指定したリソースに対して呼び出し元が持っている権限を返します。リソースが存在しない場合、NOT_FOUND エラーではなく、空の権限セットが返されます。 この API 呼び出しに必要な権限がありません。
|
UpdateDictation | |
---|---|
|
UpdateDictationStore | |
---|---|
指定された
|
UpdateNote | |
---|---|
|
UpdateSpeechConfig | |
---|---|
|
CreateDictationRequest
音声サンプルを含む Dictation
レコードを作成し、Dictation store
に追加します。
項目 | |
---|---|
parent |
このディクテーションが属するディクテーション ストアの名前。 認可には、指定されたリソース
|
dictation |
作成するディクテーション。 |
return_mask |
返されるマスクは、返されるディクテーション リソースに適用されます。 |
CreateDictationStoreRequest
新しい Dictation store
を作成します。
項目 | |
---|---|
parent |
このディクテーション ストアが属するデータセットの名前。 認可には、指定されたリソース
|
dictation_store_id |
作成中のディクテーション ストアの ID。文字列は次の正規表現と一致する必要があります: |
dictation_store |
このディクテーション ストアの設定情報。 |
CreateNoteRequest
項目 | |
---|---|
parent |
このメモが属する Dictation の名前。 認可には、指定されたリソース
|
note |
作成するNote。 |
return_mask |
更新マスクは、返される Note リソースに適用されます。 |
CreateSpeechConfigRequest
認識設定を含む SpeechConfig
レコードを作成し、Dictation store
に追加します。
項目 | |
---|---|
parent |
この Speech_config が属するディクテーションス トアの名前。 認可には、指定されたリソース
|
speech_config |
SpeechConfig。 |
DeleteDictationRequest
指定された Dictation store
から Dictation
を削除します。
項目 | |
---|---|
name |
削除する Dictation のリソース名。 認可には、指定されたリソース
|
DeleteDictationStoreRequest
指定された Dictation store
を削除します。
項目 | |
---|---|
name |
削除するディクテーション ストアのリソース名。 認可には、指定されたリソース
|
DeleteNoteRequest
項目 | |
---|---|
name |
削除する Note のリソース名。 認可には、指定されたリソース
|
DeleteSpeechConfigRequest
指定された Dictation store
から SpeechConfig
構成を削除します。
項目 | |
---|---|
name |
削除する SpeechConfig 構成のリソース名。 認可には、指定されたリソース
|
音声入力
音声ディクテーション。
項目 | |
---|---|
name |
|
audio |
GetDictation レスポンスで返された場合は、バイナリ表現の音声コンテンツが含まれます。音声フィールドは、CreateDictation レスポンスと UpdateDictation のレスポンスには含まれません。 |
create_time |
出力のみ。ディクテーションが作成された時刻。 |
training_consent |
このディクテーションとその Note の使用を許可して音声認識を改善するには、ALLOW を指定します。この値は、親のディクテーション ストア のトレーニング同意フィールドの値よりも優先されます。この値を省略すると、ディクテーション ストア のトレーニング同意フィールドの値が使用されます。 |
DictationStore
ディクテーション、Note、SpeechConfigs
など、他のディクテーション関連リソースを保存できるディクテーション ストア。
項目 | |
---|---|
name |
出力のみ。 |
pubsub_topic |
音声入力とメモの変更に関する通知が公開される Cloud Pub/Sub トピック。PubsubMessage.Data には、Dictation または Note のリソース名が含まれます。PubsubMessage.Attributes には、"action":"CreateDictation" など、通知をトリガーした操作を表す文字列によるマッピング情報が含まれます。通知は、トピックが空でない場合にのみ送信されます。トピック名は、プロジェクトに制限される必要があります。この API は、指定した Cloud Pub/Sub トピックに対するパブリッシャー権限を持っている必要があります。適切な権限を持っていなければ、通知を送信する呼び出しは失敗します。クライアントにより提供されます。 |
training_consent |
このストア内のリソースを使用して音声認識を向上させるには、ALLOW を指定します。Dictation.training_consent フィールドを使用して各ディクテーションに除外を指定することもできます。これは、ディクテーション ストア内に指定された値に優先します。指定しない場合は DISALLOW として扱われます。 |
labels |
ディクテーション ストアの整理に使用するユーザー指定の Key-Value ペア。 ラベルキーの長さは 1〜63 文字、UTF-8 エンコードは最大 128 バイトとし、次の PCRCRE 正規表現に準拠する必要があります: [\ p {Ll} \ p {Lo}][\ p {Ll} \ p {Lo} \ p {N} _-]{0,62} ラベル値はオプションで、長さは 1〜63 文字、UTF-8 エンコードは最大 128 バイトとし、PCRCRE 正規表現に準拠する必要があります: [\ p {Ll} \ p {Lo} \ p {N } _-]{0,63} 1 つのストアに関連付けることができるラベルは 64 個までです。 |
GetDictationRequest
指定された Dictation store
から Dictation
を取得します。
項目 | |
---|---|
name |
取得する Dictation のリソース名。 認可には、指定されたリソース
|
GetDictationStoreRequest
Dictation store
を取得します。
項目 | |
---|---|
name |
取得するディクテーション ストアのリソース名。 認可には、指定されたリソース
|
GetNoteRequest
項目 | |
---|---|
name |
取得する Note のリソース名。 認可には、指定されたリソース
|
GetSpeechConfigRequest
指定された Dictation store
から SpeechConfig
レコードを取得します。
項目 | |
---|---|
name |
取得する SpeechConfig 構成のリソース名。 認可には、指定されたリソース
|
ListDictationStoresRequest
指定されたデータセット内の Dictation stores
を一覧表示します。
項目 | |
---|---|
parent |
データセットの名前。 認可には、指定されたリソース
|
page_size |
1 つのレスポンスで返すディクテーション ストアの数の制限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。 |
page_token |
前の List リクエストから返された next_page_token 値(存在する場合)。 |
filter |
フィルタに一致するストアのみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings。ラベルに対するフィルタリングのみがサポートされます。例: |
ListDictationStoresResponse
指定されたデータセット内の Dictation stores
を一覧表示します。
項目 | |
---|---|
dictation_stores[] |
返されたディクテーション ストア。リクエスト内の page_size の値を超えるディクテーションストアはありません。 |
next_page_token |
結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。 |
ListDictationsRequest
指定した Dictation store
内の Dictations
を一覧表示します。
項目 | |
---|---|
parent |
Dictation を取得する Dictation ストアの名前。 認可には、指定されたリソース
|
page_size |
1 つのレスポンスで返される Dictation の数の上限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。 |
page_token |
前の List リクエストから返された next_page_token 値(存在する場合)。 |
filter |
返される Dictation をフィルタに一致するものに制限します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド / 関数は次のとおりです。- use_for_speech_training |
ListDictationsResponse
指定した Dictation store
内の Dictations
を一覧表示します。
項目 | |
---|---|
dictation_names[] |
返される Dictation 名。リクエストの page_size の値を超えることはありません。 |
next_page_token |
結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。 |
ListNotesRequest
項目 | |
---|---|
parent |
Note を取得するディクテーションの名前。 認可には、指定されたリソース
|
page_size |
1 回の応答で返す Note の数を制限します。ゼロの場合、デフォルトのページサイズ 100 が使用されます。 |
page_token |
前の List リクエストから返された next_page_token 値(存在する場合)。 |
filter |
フィルタに一致する Note のみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド/関数は次のとおりです: - type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
項目 | |
---|---|
note_names[] |
返された Note の名前。リクエストの page_size の値を超えることはありません。 |
next_page_token |
結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。 |
ListSpeechConfigsRequest
指定した Dictation store
内の SpeechConfigs
を一覧表示します。
項目 | |
---|---|
parent |
SpeechConfig を取得するディクテーション ストアの名前。 認可には、指定されたリソース
|
page_size |
1 回のレスポンスで返される SpeechConfig の数の上限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。 |
page_token |
前の List リクエストから返された next_page_token 値(存在する場合)。 |
filter |
フィルタに一致する SpeechConfigs のみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド / 関数は次のとおりです。- speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
指定した Dictation store
内の SpeechConfigs
を一覧表示します。
項目 | |
---|---|
speech_config_names[] |
返される SpeechConfig の名前。リクエストの page_size の値を超えることはありません。 |
next_page_token |
結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。 |
注
Note は音声認識の結果を表すことができ、または音声認識モデルの追加トレーニングや最終的な修正を行った音声文字変換の保存を容易にするための信頼できるソースとして入力されます。
項目 | |
---|---|
name |
|
speech_config_name |
|
type |
Note type |
origin |
認識結果の生成元(使用した特定のモデルなど) |
speech_recognition_results[] |
ダイアログ内で話者が順番に発言する音声の部分など、音声の連続部分に対応する音声文字変換結果の連続リスト。 |
create_time |
Note が作成された時刻。サーバーによって設定されます。 |
型
Note の型。
列挙型 | |
---|---|
TYPE_UNSPECIFIED |
型が無効か、指定されていません。 |
VERBATIM |
ディクテーション 音声の「グラウンドトゥルース」として使用できる完全一致の Note。 |
CORRECTION |
Recognize の呼び出しによって生成された Note に対する修正。 |
DRAFT |
最終的な Note を生成する前に更新できる Note の下書き。 |
FINAL |
最終承認済みの Note。 |
AUTO_RECOGNIZED |
出力のみ。Recognize の呼び出しによって生成された Note。自動認識型の Note は、CreateNote では作成できません。自動認識型の Note は UpdateNote で更新できません。UpdateNote を使用して Note を更新し、自動認識型の Note にすることはできません。 |
RecognitionAudio
RecognitionConfig
で指定されたエンコードの音声データが含まれます。content
または uri
を指定する必要があります。両方を指定するか、どちらも指定しないと google.rpc.Code.INVALID_ARGUMENT
が返されます。詳しくは、音声の制限を参照してください。
項目 | ||
---|---|---|
共用体フィールド audio_source 。インライン コンテンツまたは Cloud Storage URI の音声ソース。audio_source は次のいずれかになります。 |
||
content |
音声データのバイトは |
|
uri |
|
RecognitionConfig
認識機能にリクエストの処理方法を指定する情報を提供します。
項目 | |
---|---|
encoding |
すべての |
sample_rate_hertz |
すべての |
audio_channel_count |
入力音声データのチャンネル数。MULTI-CHANNEL 認識の場合にのみ設定します。LINEAR16 と FLAC の有効な値は |
enable_separate_recognition_per_channel |
各チャンネルを個別に認識させるには、これを明示的に「true」に設定し、audio_channel_count を 1 よりも大きい値に設定する必要があります。認識結果には、結果が属するチャンネルを示す channel_tag フィールドが含まれます。「true」でない場合は、最初のチャンネルのみが認識されます。 |
language_code |
提供された音声の言語を、BCP-47 言語タグで表したもの。例: "en-US"。現在サポートされている言語コードのリストについては、言語のサポートをご覧ください。 |
context_phrases[] |
音声認識で認識されやすくするための単語やフレーズの「ヒント」を含む文字列のリスト。これは、特定の語句の精度を向上させるために使用できます。たとえば、ユーザーによって特定のコマンドがよく話されている場合が挙げられます。また、認識機能の語彙に語句を追加するためにも使用できます。 |
model |
指定されたリクエストに選択するモデル。モデルが明示的に指定されていない場合は、デフォルト値の「default」が使用されます。 |
AudioEncoding
リクエストで送信される音声データのエンコード。
すべてのエンコードで 1 チャンネル(モノラル)の音声のみがサポートされます。
最良の結果を得るには、音声ソースをロスレス エンコード(FLAC
または LINEAR16
)でキャプチャして送信する必要があります。音声認識の精度は、特にバックグラウンド ノイズが存在する場合に、音声のキャプチャまたは送信に損失の大きいコーデックを使用すると低下します。ロッシー コーデックには、MULAW
、AMR
、AMR_WB
、OGG_OPUS
、SPEEX_WITH_HEADER_BYTE
があります。
FLAC
および WAV
音声ファイル形式には、含まれている音声コンテンツを記述したヘッダーが含まれます。LINEAR16
または MULAW
でエンコードされた音声を含む WAV
ファイルの認識をリクエストできます。リクエストで FLAC
または WAV
の音声ファイル形式を送信する場合、AudioEncoding
を指定する必要はありません。音声エンコード形式はファイル ヘッダーから決定されます。FLAC
または WAV
音声を送信するときに AudioEncoding
を指定する場合、そのエンコード構成は音声ヘッダーに記述されているエンコードと一致している必要があります。それ以外の場合、リクエストは google.rpc.Code.INVALID_ARGUMENT
を返します。
列挙型 | |
---|---|
ENCODING_UNSPECIFIED |
指定なし。 |
LINEAR16 |
非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。 |
FLAC |
FLAC (Free Lossless Audio Codec)はロスレスである(したがって、認識は損なわれない)ため推奨されるエンコード方式であり、LINEAR16 の約半分の帯域幅しか必要としません。FLAC ストリーム エンコードは 16 ビットと 24 ビットのサンプルをサポートしていますが、STREAMINFO のすべてのフィールドがサポートされているわけではありません。 |
MULAW |
G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。 |
AMR |
Adaptive Multi-Rate Narrowband コーデック。sample_rate_hertz は 8,000 にする必要があります。 |
AMR_WB |
Adaptive Multi-Rate Wideband コーデック。sample_rate_hertz は 16,000 にする必要があります。 |
OGG_OPUS |
Ogg コンテナに格納された Opus エンコード形式の音声フレーム(OggOpus)。sample_rate_hertz は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。 |
SPEEX_WITH_HEADER_BYTE |
ロッシー エンコードの使用は推奨されませんが、非常に低いビットレートのエンコードが必要な場合は、OGG_OPUS が Speex エンコードよりも強く推奨されます。Cloud Speech API でサポートされている Speex エンコードは、MIME タイプの audio/x-speex-with-header-byte と同様に、各ブロックにヘッダーバイトがあります。これは RFC 5574 で定義されている RTP Speex エンコードのバリアントです。ストリームは一連のブロックから成り、RTP パケットごとに 1 つのブロックがあります。各ブロックはブロックの長さ(バイト単位)を含むバイトから始まり、その後に 1 つ以上の Speex データのフレームが続きます。各データフレームは RFC 5574 で指定された整数バイト数(オクテット)になるようにパディングされます。言い換えると、各 RTP ヘッダーはブロック長を含む単一のバイトに置き換えられます。Speex ワイドバンドのみがサポートされています。sample_rate_hertz は 16000 にする必要があります。 |
RecognizeRequest
項目 | |
---|---|
name |
音声文字変換する Dictation のリソース名。 認可には、指定されたリソース
|
speech_config_name |
認識リクエストで使用する SpeechConfig 構成。音声構成は、完全な REST パス 認可には、指定されたリソース
|
enable_voice_actions |
認識エンジンが音声操作を検索するかどうかを決定します。 |
RecognizeResponse
Dictation
に対する Recognize メソッドの最終レスポンス。この構造は google.longrunning.Operation.result.response
に含まれ、Recognize
実行の詳細な結果を記述します。実行が終了した場合にのみ含まれます。
項目 | |
---|---|
note_name |
Recognize の呼び出しから生成された、 |
RecognizedAction
認識中に検出された音声操作。
以下のテーブルに可能な操作を示します。
音声操作 | RecognizedAction |
テキスト選択 例: 患者へのヘモグロビンの選択 |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
テキストの選択を削除します。 例: 選択を解除 |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
最後の発話または現在の文を削除します。 例: 元に戻す |
{ "action_name": "Undo", "confidence": 0.8 } |
新しい行を挿入します。 例: 新しい行 |
{ "action_name": "NewLine", "confidence": 1.0 } |
新しい段落を挿入します。 例: 新しい段落 |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
前の単語にカーソルを移動します。 例: ヘモグロビンの前に挿入 |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
カーソルを移動します。 例: 文の最後に移動 |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
カーソルのある位置にリストを作成します。 例: 挿入番号 1 低い bp |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
項目 | |
---|---|
action_name |
検出されたアクションの名前。 |
confidence |
信頼度の推定値は 0.0~1.0。数値が大きいほど、指定した音声操作である可能性が高くなります。 |
params[] |
検出されたアクションのパラメータのリスト。 |
RecognizedActionParameter
アクション パラメータを表します。
項目 | |
---|---|
parameter_name |
アクションパラメータの名前(例: |
value |
アクションパラメータの値(例: |
SpeechConfig
トレーニングと適応をサポートする構成レコード。実際の人間の話者は SpeechConfig 構成を共有しているか、それぞれに個別の Config があります。
項目 | |
---|---|
name |
|
recognition_config |
認識機能にリクエストの処理方法を指定する情報を提供します。 |
speaker_external_id |
特定の Config を選択するために使用できる外部システムの ID。 |
speaker_human_name |
指定された場合の人名。 |
SpeechRecognitionResult
音声の一部に対応する音声認識の結果。
項目 | |
---|---|
transcript |
出力のみ。ユーザーが話した単語を表す音声文字変換テキスト。 |
confidence |
出力のみ。信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、 |
words[] |
出力のみ。認識された各単語の、単語固有の情報のリスト。 |
channel_tag |
マルチ チャンネル音声の場合、これはそのチャンネルからの音声の認識結果に対応するチャンネル番号です。audio_channel_count = N の場合、出力値の範囲は「1」から「N」までです。 |
action |
認識中に音声操作が検出されました。 |
StreamingRecognitionResult
現在処理されている音声の部分に対応するストリーミング音声認識の結果。
項目 | |
---|---|
speech_recognition_result |
出力のみ。音声認識の増分結果 |
is_final |
出力のみ。 |
stability |
出力のみ。認識機能でこの暫定的な結果についての推測が変更されない可能性の推定値。値の範囲は 0.0(完全に不安定)~1.0(完全に安定)です。このフィールドは、暫定的結果( |
StreamingRecognizeRequest
[StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] メソッド向けにクライアントから送信される最上位レベルのメッセージ。複数の StreamingRecognizeRequest
メッセージが送信されます。最初のメッセージには必ず stream_setup_info
メッセージが含まれ、audio_content
データが含まれることはありません。後続のすべてのメッセージには必ず audio_content
データが含まれ、stream_setup_info
メッセージが含まれることはありません。
フィールド | ||
---|---|---|
共用体フィールド streaming_request 。ストリーミング リクエスト。ストリーミング設定情報または音声コンテンツです。streaming_request は次のいずれかになります。 |
||
stream_setup_info |
認識機能にリクエストの処理方法を指定する情報を提供します。最初の |
|
audio_content |
認識する音声データ。音声データの連続したチャンクは、連続した |
StreamingRecognizeResponse
StreamingRecognizeResponse
は、[StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] によってクライアントに返される唯一のメッセージです。一連のゼロ個以上の StreamingRecognizeResponse
メッセージがクライアントにストリーミングされます。認識可能な音声がなく、single_utterance
が false に設定されている場合、メッセージはクライアントにストリーミングされません。
音声の処理中に返される一連の StreamingRecognizeResponse
の例を次に示します。
results { speech_recognition_result { transcript: "tube" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }
results { speech_recognition_result { transcript: " that's" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }
注:
is_final: true
フィールドで示されているように、2 つ(#4 と #7)のレスポンスにのみ最終結果が含まれます。レスポンスを連結することで、完全な記録が生成されます。他のレスポンスには、中間
results
が含まれます。#3 と #6 には 2 つの暫定的results
が含まれています。最初の部分は安定性が高く、変更される可能性は低くなります。2 つ目の部分は安定性が低く、変更される可能性が高くなります。上記の
stability
とconfidence
の値は、説明のみを目的としています。実際の値はこれとは異なる場合があります。各レスポンスでは、次のフィールドの1つのみが設定されます:
error
、speech_event_type
、または 1 つ以上の(繰り返し)results
項目 | |
---|---|
error |
出力のみ。ストリーミング オペレーションに関連付けられたエラー ステータス(ある場合)。 |
results[] |
出力のみ。この繰り返しリストには、現在処理されている音声の連続する部分に対応する、ゼロ個以上の結果が含まれます。ゼロまたは 1 つの |
speech_event_type |
出力のみ。speech イベントのタイプを示します。 |
SpeechEventType
speech イベントのタイプを示します。
列挙型 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
speech イベントが指定されていません。 |
END_OF_SINGLE_UTTERANCE |
このイベントは、サーバーがユーザーの発話の終わりを検出し、これ以上発話が続くことはないと推測したことを示します。したがって、サーバーは追加の音声を処理しません(ただし、後で追加の結果を返すことがあります)。クライアントは追加の音声データの送信を停止し、gRPC 接続を半分閉じて、サーバーが gRPC 接続を閉じるまで追加の結果を待機する必要があります。このイベントは、single_utterance が true に設定されている場合にのみ送信され、それ以外の場合には使用されません。 |
TrainingConsent
音声認識を改善するために与える同意のタイプを指定します。
列挙型 | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
同意が指定されていない。 |
ALLOW |
トレーニングに同意する。 |
DISALLOW |
トレーニングに同意しない。 |
UpdateDictationRequest
指定された Dictation
の更新をリクエストします。
項目 | |
---|---|
dictation |
サーバー上のリソースを更新するディクテーション リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。 認可には、指定されたリソース
|
update_mask |
リソースに適用される更新マスク。 |
UpdateDictationStoreRequest
Dictation store
を更新します。
項目 | |
---|---|
dictation_store |
サーバー上のリソースを更新するディクテーション ストアリソース。update_マスクに一覧表示されたフィールドのみが適用されます。 認可には、指定されたリソース
|
update_mask |
リソースに適用される更新マスク。 |
UpdateNoteRequest
特定の Note
を更新するリクエスト(例: SpeechConfig の更新)。
項目 | |
---|---|
note |
サーバー上のリソースを更新する Note リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。 自動認識型の Note は更新できません。Note を更新して、自動認識型を指定することはできません。 認可には、指定されたリソース
|
update_mask |
リソースに適用される更新マスク。 |
UpdateSpeechConfigRequest
指定された SpeechConfig
の更新リクエスト(言語の更新など)。
項目 | |
---|---|
speech_config |
サーバー上のリソースを更新する SpeechConfig リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。 認可には、指定されたリソース
|
update_mask |
リソースに適用される更新マスク。 |
WordInfo
認識された単語の単語固有の情報。
項目 | |
---|---|
start_time_offset |
出力のみ。単語の発話の開始時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、 |
end_time_offset |
出力のみ。単語の発話の終了時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、 |
word |
出力のみ。この情報セットに対応する単語。 |
confidence |
出力のみ。信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、 |