パッケージ google.cloud.healthcare.v1alpha2.dictation

索引

DictationService

医療ディクテーション リクエストを処理するサービス。Dictation データは、他の医療モダリティとともにデータセットに保存されます。各データセットには 0 個以上のモダリティ データストアを含めることが可能です(dictation stores など)。Dictation 音声(Dictations)と文字起こしの結果(Notes)は、Dictation ストアに保存される 2 つの主なデータ型です。SpeechConfigs は、自動音声認識に使用されるパラメータをエンコードしています。

CreateDictation

rpc CreateDictation(CreateDictationRequest) returns (Dictation)

新しい Dictation レコードを作成します。 音声サンプルを保持します。このサービスによって各オブジェクトに一意の ID が割り当てられるため、同じ音声を複数回表示する音声入力オブジェクトを作成することも可能です。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

CreateDictationStore

rpc CreateDictationStore(CreateDictationStoreRequest) returns (DictationStore)

親データセット内に新しい Dictation store を作成します。既存のストアと同じ ID のディクショナリ ストアを作成しようとすると、ALREADY_EXISTS エラーが発生します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

CreateNote

rpc CreateNote(CreateNoteRequest) returns (Note)

新しい Note を作成します。Note はディクテーション ストアに追加され、ディクテーションに関連付けられます。Note には部分的に入力できます。結果は、UpdateNote を呼び出した後に入力できます。複数の Note を、音声認識結果または人間のトランスクリプショニストが行った手作業による音声文字変換を表す同じ Dictation に関連付けることができます。このサービスによって一意の ID が各オブジェクトに割り当てられるため、同じコンテンツの Note オブジェクトを複数回作成できます。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

CreateSpeechConfig

rpc CreateSpeechConfig(CreateSpeechConfigRequest) returns (SpeechConfig)

新しい SpeechConfig を作成します。SpeechConfig がディクテーション ストアに追加され、note に関連付けられます。SpeechConfig には部分的に入力できます。結果は、UpdateSpeechConfig を呼び出した後に入力できます。このサービスによって一意の ID が各オブジェクトに割り当てられるため、同じ内容の SpeechConfig オブジェクトを複数回作成できます。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

DeleteDictation

rpc DeleteDictation(DeleteDictationRequest) returns (Empty)

Dictation を削除するか、存在しない場合は NOT_FOUND を返します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

DeleteDictationStore

rpc DeleteDictationStore(DeleteDictationStoreRequest) returns (Empty)

指定された Dictation store を削除し、含まれるすべての音声入力を削除します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

DeleteNote

rpc DeleteNote(DeleteNoteRequest) returns (Empty)

既存の Note を削除します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

DeleteSpeechConfig

rpc DeleteSpeechConfig(DeleteSpeechConfigRequest) returns (Empty)

SpeechConfig を削除するか、存在しない場合は NOT_FOUND を返します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

GetDictation

rpc GetDictation(GetDictationRequest) returns (Dictation)

Dictation を取得します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

GetDictationStore

rpc GetDictationStore(GetDictationStoreRequest) returns (DictationStore)

指定された Dictation store を取得します。存在しない場合は NOT_FOUND を返します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

GetIamPolicy

rpc GetIamPolicy(GetIamPolicyRequest) returns (Policy)

リソースのアクセス制御ポリシーを取得します。リソースが存在しない場合、NOT_FOUND エラーを返します。リソースが存在し、ポリシーが設定されていない場合、空のポリシーを返します。

承認には、指定されたリソースに対する Google IAM の権限 healthcare.DictationStores.getIamPolicy が必要です。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

GetNote

rpc GetNote(GetNoteRequest) returns (Note)

Note を取得します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

GetSpeechConfig

rpc GetSpeechConfig(GetSpeechConfigRequest) returns (SpeechConfig)

SpeechConfig 構成を取得します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

ListDictationStores

rpc ListDictationStores(ListDictationStoresRequest) returns (ListDictationStoresResponse)

指定されたデータセット内の Dictation stores を一覧表示します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

ListDictations

rpc ListDictations(ListDictationsRequest) returns (ListDictationsResponse)

指定した Dictation store 内の Dictations をリストします。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

ListNotes

rpc ListNotes(ListNotesRequest) returns (ListNotesResponse)

指定された Dictation 内のすべての Notes を一覧表示し、フィルタリングをサポートします。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

ListSpeechConfigs

rpc ListSpeechConfigs(ListSpeechConfigsRequest) returns (ListSpeechConfigsResponse)

指定された Dictation store 内のすべての SpeechConfigs を一覧表示し、フィルタリングをサポートします。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

Recognize

rpc Recognize(RecognizeRequest) returns (Operation)

非同期音声認識を実行します。google.longrunning.Operations インターフェースを介して結果を受け取ります。RecognizeResponse メッセージを含む Operation.error または Operation.response を返します(この場合、RecognizeResponse で名前が返される Note は Dictation の子になります)。metadata フィールド タイプは OperationMetadata です。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

SetIamPolicy

rpc SetIamPolicy(SetIamPolicyRequest) returns (Policy)

リソースのアクセス制御ポリシーを設定します。既存のポリシーをすべて置き換えます。

承認には、指定されたリソースに対する Google IAM の権限 healthcare.DictationStores.setIamPolicy が必要です。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

双方向ストリーミング音声認識を実行します。これにより、クライアントは音声を送信しながら結果を受け取ります。このメソッドは、(REST ではなく)gRPC API を介してのみ使用できます。このメソッドを介して送信された音声は、リクエストで指定された Dictation に追加されます。この呼び出しの前に、ディクテーションに音声が含まれないようにしてください。音声なしのディクテーションを作成するには、ディクテーションの作成時に CreateDictationRequestaudio フィールドを指定しないでください。クライアントに返された認識の結果は、リクエストで指定されたディクテーションの子である Note に保存されます。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

TestIamPermissions

rpc TestIamPermissions(TestIamPermissionsRequest) returns (TestIamPermissionsResponse)

指定したリソースに対して呼び出し元が持っている権限を返します。リソースが存在しない場合、NOT_FOUND エラーではなく、空の権限セットが返されます。

この API 呼び出しに必要な権限がありません。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

UpdateDictation

rpc UpdateDictation(UpdateDictationRequest) returns (Dictation)

Dictation を更新します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

UpdateDictationStore

rpc UpdateDictationStore(UpdateDictationStoreRequest) returns (DictationStore)

指定された Dictation store を更新します。

承認スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

UpdateNote

rpc UpdateNote(UpdateNoteRequest) returns (Note)

Note を更新します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

UpdateSpeechConfig

rpc UpdateSpeechConfig(UpdateSpeechConfigRequest) returns (SpeechConfig)

SpeechConfig を更新します。

認可スコープ

次の OAuth スコープのいずれかが必要です。

  • https://www.googleapis.com/auth/cloud-healthcare
  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

CreateDictationRequest

音声サンプルを含む Dictation レコードを作成し、Dictation store に追加します。

項目
parent

string

このディクテーションが属するディクテーション ストアの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.create

dictation

Dictation

作成するディクテーション。

return_mask

FieldMask

返されるマスクは、返されるディクテーション リソースに適用されます。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

CreateDictationStoreRequest

新しい Dictation store を作成します。

項目
parent

string

このディクテーション ストアが属するデータセットの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictationStores.create

dictation_store_id

string

作成中のディクテーション ストアの ID。文字列は次の正規表現と一致する必要があります: [\p{L}\p{N}_\-\.]{1,256}

dictation_store

DictationStore

このディクテーション ストアの設定情報。

CreateNoteRequest

Note レコードを作成して Dictation に追加します。

項目
parent

string

このメモが属する Dictation の名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.update

note

Note

作成するNote。

return_mask

FieldMask

更新マスクは、返される Note リソースに適用されます。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

CreateSpeechConfigRequest

認識設定を含む SpeechConfig レコードを作成し、Dictation store に追加します。

項目
parent

string

この Speech_config が属するディクテーションス トアの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.create

speech_config

SpeechConfig

SpeechConfig。

DeleteDictationRequest

指定された Dictation store から Dictation を削除します。

項目
name

string

削除する Dictation のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.delete

DeleteDictationStoreRequest

指定された Dictation store を削除します。

項目
name

string

削除するディクテーション ストアのリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictationStores.delete

DeleteNoteRequest

指定された Dictation から Note を削除します。

項目
name

string

削除する Note のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.update

DeleteSpeechConfigRequest

指定された Dictation store から SpeechConfig 構成を削除します。

項目
name

string

削除する SpeechConfig 構成のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.delete

音声入力

音声ディクテーション。

項目
name

string

projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id} 形式の ディクテーション のリソース名。サーバーによって割り当てられます。

audio

RecognitionAudio

GetDictation レスポンスで返された場合は、バイナリ表現の音声コンテンツが含まれます。音声フィールドは、CreateDictation レスポンスと UpdateDictation のレスポンスには含まれません。

create_time

Timestamp

出力のみ。ディクテーションが作成された時刻。

DictationStore

ディクテーション、Note、SpeechConfigs など、他のディクテーション関連リソースを保存できるディクテーション ストア。

項目
name

string

出力のみ。projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id} 形式の、ディクテーション ストアのリソース名。

pubsub_topic

string

音声入力とメモの変更に関する通知が公開される Cloud Pub/Sub トピック。PubsubMessage.Data には、Dictation または Note のリソース名が含まれます。PubsubMessage.Attributes には、"action":"CreateDictation" など、通知をトリガーした操作を表す文字列によるマッピング情報が含まれます。通知は、トピックが空でない場合にのみ送信されます。トピック名は、プロジェクトに制限される必要があります。この API は、指定した Cloud Pub/Sub トピックに対するパブリッシャー権限を持っている必要があります。適切な権限を持っていなければ、通知を送信する呼び出しは失敗します。クライアントにより提供されます。

labels

map<string, string>

ディクテーション ストアの整理に使用するユーザー指定の Key-Value ペア。

ラベルキーの長さは 1〜63 文字、UTF-8 エンコードは最大 128 バイトとし、次の PCRCRE 正規表現に準拠する必要があります: [\ p {Ll} \ p {Lo}][\ p {Ll} \ p {Lo} \ p {N} _-]{0,62}

ラベル値はオプションで、長さは 1〜63 文字、UTF-8 エンコードは最大 128 バイトとし、PCRCRE 正規表現に準拠する必要があります: [\ p {Ll} \ p {Lo} \ p {N } _-]{0,63}

1 つのストアに関連付けることができるラベルは 64 個までです。

GetDictationRequest

指定された Dictation store から Dictation を取得します。

項目
name

string

取得する Dictation のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.get

GetDictationStoreRequest

Dictation store を取得します。

項目
name

string

取得するディクテーション ストアのリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictationStores.get

GetNoteRequest

指定された Dictation から Note を取得します。

項目
name

string

取得する Note のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.get

GetSpeechConfigRequest

指定された Dictation store から SpeechConfig レコードを取得します。

項目
name

string

取得する SpeechConfig 構成のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.get

ListDictationStoresRequest

指定されたデータセット内の Dictation stores を一覧表示します。

項目
parent

string

データセットの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictationStores.list

page_size

int32

1 つのレスポンスで返すディクテーション ストアの数の制限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。

page_token

string

前の List リクエストから返された next_page_token 値(存在する場合)。

filter

string

フィルタに一致するストアのみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings。ラベルに対するフィルタリングのみがサポートされます。例: labels.key=value

ListDictationStoresResponse

指定されたデータセット内の Dictation stores を一覧表示します。

項目
dictation_stores[]

DictationStore

返されたディクテーション ストア。リクエスト内の page_size の値を超えるディクテーションストアはありません。

next_page_token

string

結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。

ListDictationsRequest

指定した Dictation store 内の Dictations を一覧表示します。

項目
parent

string

Dictation を取得する Dictation ストアの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.list

page_size

int32

1 つのレスポンスで返される Dictation の数の上限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。

page_token

string

前の List リクエストから返された next_page_token 値(存在する場合)。

filter

string

返される Dictation をフィルタに一致するものに制限します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド / 関数は次のとおりです。- use_for_speech_training

ListDictationsResponse

指定した Dictation store 内の Dictations を一覧表示します。

項目
dictation_names[]

string

返される Dictation 名。リクエストの page_size の値を超えることはありません。

next_page_token

string

結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。

ListNotesRequest

指定した Dictation 内の Notes を一覧表示します。

項目
parent

string

Note を取得するディクテーションの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.get

page_size

int32

1 回の応答で返す Note の数を制限します。ゼロの場合、デフォルトのページサイズ 100 が使用されます。

page_token

string

前の List リクエストから返された next_page_token 値(存在する場合)。

filter

string

フィルタに一致する Note のみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド/関数は次のとおりです: - type - origin - speech_config_name - speaker_external_id - speaker_human_name

ListNotesResponse

指定した Dictation 内の Notes を一覧表示します。

項目
note_names[]

string

返された Note の名前。リクエストの page_size の値を超えることはありません。

next_page_token

string

結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。

ListSpeechConfigsRequest

指定した Dictation store 内の SpeechConfigs を一覧表示します。

項目
parent

string

SpeechConfig を取得するディクテーション ストアの名前。

認可には、指定されたリソース parent に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.list

page_size

int32

1 回のレスポンスで返される SpeechConfig の数の上限。ゼロの場合、デフォルトのページサイズ 100 が使用されます。

page_token

string

前の List リクエストから返された next_page_token 値(存在する場合)。

filter

string

フィルタに一致する SpeechConfigs のみを返します。構文: https://cloud.google.com/appengine/docs/standard/python/search/query_strings フィルタリングに使用できるフィールド / 関数は次のとおりです。- speaker_external_id - speaker_human_name

ListSpeechConfigsResponse

指定した Dictation store 内の SpeechConfigs を一覧表示します。

項目
speech_config_names[]

string

返される SpeechConfig の名前。リクエストの page_size の値を超えることはありません。

next_page_token

string

結果の次のページを取得するためのトークン。リストにそれ以上の結果がない場合は空です。

Note は音声認識の結果を表すことができ、または音声認識モデルの追加トレーニングや最終的な修正を行った音声文字変換の保存を容易にするための信頼できるソースとして入力されます。

項目
name

string

projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id} 形式の Note のリソース名。サーバーによって割り当てられます。

speech_config_name

string

projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id} 形式のこの Note を生成するために使用される SpeechConfig。

type

Type

Note type

origin

string

認識結果の生成元(使用した特定のモデルなど)

speech_recognition_results[]

SpeechRecognitionResult

ダイアログ内で話者が順番に発言する音声の部分など、音声の連続部分に対応する音声文字変換結果の連続リスト。

create_time

Timestamp

Note が作成された時刻。サーバーによって設定されます。

Note の型。

列挙型
TYPE_UNSPECIFIED 型が無効か、指定されていません。
VERBATIM ディクテーション 音声の「グラウンドトゥルース」として使用できる完全一致の Note。
CORRECTION Recognize の呼び出しによって生成された Note に対する修正。
DRAFT 最終的な Note を生成する前に更新できる Note の下書き。
FINAL 最終承認済みの Note。
AUTO_RECOGNIZED 出力のみ。Recognize の呼び出しによって生成された Note。自動認識型の Note は、CreateNote では作成できません。自動認識型の Note は UpdateNote で更新できません。UpdateNote を使用して Note を更新し、自動認識型の Note にすることはできません。

RecognitionAudio

RecognitionConfig で指定されたエンコードの音声データが含まれます。content または uri を指定する必要があります。両方を指定するか、どちらも指定しないと google.rpc.Code.INVALID_ARGUMENT が返されます。詳しくは、音声の制限を参照してください。

項目
共用体フィールド audio_source。インライン コンテンツまたは Cloud Storage URI の音声ソース。audio_source は次のいずれかになります。
content

bytes

音声データのバイトは RecognitionConfig に指定されたとおりにエンコードされます。注: すべてのバイト フィールドと同様に、protobuffers では純 2 進表現を使用し、JSON 表現では base64 を使用します。

uri

string

RecognitionConfig で指定された音声データバイトを含むファイルを指す URI。現在サポートされているのは Cloud Storage URI のみです。これは gs://bucket_name/object_name の形式で指定する必要があります(他の URI 形式では google.rpc.Code.INVALID_ARGUMENT が返されます)。詳細については、リクエスト URI をご覧ください。

RecognitionConfig

認識機能にリクエストの処理方法を指定する情報を提供します。

項目
encoding

AudioEncoding

すべての RecognitionAudio メッセージで送信される音声データのエンコード。このフィールドは、FLAC および WAV 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、AudioEncoding をご覧ください。

sample_rate_hertz

int32

すべての RecognitionAudio メッセージで送信される音声データのサンプリング レート(ヘルツ単位)。有効な値は 8,000~48,000 です。16,000 が最適な値です。最良の結果を得るには、音源のサンプリング レートを 16,000 Hz に設定します。不可能な場合は、(再サンプリングせずに)音源のネイティブ サンプリング レートを使用します。このフィールドは、FLAC および WAV 音声ファイルでは省略可能であり、他のすべての音声形式では必須です。詳細については、AudioEncoding をご覧ください。

audio_channel_count

int32

入力音声データのチャンネル数。MULTI-CHANNEL 認識の場合にのみ設定します。LINEAR16 と FLAC の有効な値は 18 です。OGG_OPUS の有効な値は「1」~「254」です。MULAW、AMR、AMR_WB、SPEEX_WITH_HEADER_BYTE の有効な値は 1 のみです。0 を指定した場合または省略した場合、デフォルトの 1 チャンネル(モノラル)に設定されます。注: デフォルトでは最初のチャンネルのみ認識されます。チャンネルごとに個別に認識させるには、enableSeparateRecognitionPerChannel を「true」に設定します。

enable_separate_recognition_per_channel

bool

各チャンネルを個別に認識させるには、これを明示的に「true」に設定し、audio_channel_count を 1 よりも大きい値に設定する必要があります。認識結果には、結果が属するチャンネルを示す channel_tag フィールドが含まれます。「true」でない場合は、最初のチャンネルのみが認識されます。

language_code

string

提供された音声の言語を、BCP-47 言語タグで表したもの。例: "en-US"。現在サポートされている言語コードのリストについては、言語のサポートをご覧ください。

context_phrases[]

string

音声認識で認識されやすくするための単語やフレーズの「ヒント」を含む文字列のリスト。これは、特定の語句の精度を向上させるために使用できます。たとえば、ユーザーによって特定のコマンドがよく話されている場合が挙げられます。また、認識機能の語彙に語句を追加するためにも使用できます。

model

string

指定されたリクエストに選択するモデル。モデルが明示的に指定されていない場合は、デフォルト値の「default」が使用されます。

AudioEncoding

リクエストで送信される音声データのエンコード。

すべてのエンコードで 1 チャンネル(モノラル)の音声のみがサポートされます。

最良の結果を得るには、音声ソースをロスレス エンコード(FLAC または LINEAR16)でキャプチャして送信する必要があります。音声認識の精度は、特にバックグラウンド ノイズが存在する場合に、音声のキャプチャまたは送信に損失の大きいコーデックを使用すると低下します。ロッシー コーデックには、MULAWAMRAMR_WBOGG_OPUSSPEEX_WITH_HEADER_BYTE があります。

FLAC および WAV 音声ファイル形式には、含まれている音声コンテンツを記述したヘッダーが含まれます。LINEAR16 または MULAW でエンコードされた音声を含む WAV ファイルの認識をリクエストできます。リクエストで FLAC または WAV の音声ファイル形式を送信する場合、AudioEncoding を指定する必要はありません。音声エンコード形式はファイル ヘッダーから決定されます。FLAC または WAV 音声を送信するときに AudioEncoding を指定する場合、そのエンコード構成は音声ヘッダーに記述されているエンコードと一致している必要があります。それ以外の場合、リクエストは google.rpc.Code.INVALID_ARGUMENT を返します。

列挙型
ENCODING_UNSPECIFIED 指定なし。
LINEAR16 非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。
FLAC FLAC(Free Lossless Audio Codec)はロスレスである(したがって、認識は損なわれない)ため推奨されるエンコード方式であり、LINEAR16 の約半分の帯域幅しか必要としません。FLAC ストリーム エンコードは 16 ビットと 24 ビットのサンプルをサポートしていますが、STREAMINFO のすべてのフィールドがサポートされているわけではありません。
MULAW G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。
AMR Adaptive Multi-Rate Narrowband コーデック。sample_rate_hertz は 8,000 にする必要があります。
AMR_WB Adaptive Multi-Rate Wideband コーデック。sample_rate_hertz は 16,000 にする必要があります。
OGG_OPUS Ogg コンテナに格納された Opus エンコード形式の音声フレーム(OggOpus)。sample_rate_hertz は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。
SPEEX_WITH_HEADER_BYTE ロッシー エンコードの使用は推奨されませんが、非常に低いビットレートのエンコードが必要な場合は、OGG_OPUS が Speex エンコードよりも強く推奨されます。Cloud Speech API でサポートされている Speex エンコードは、MIME タイプの audio/x-speex-with-header-byte と同様に、各ブロックにヘッダーバイトがあります。これは RFC 5574 で定義されている RTP Speex エンコードのバリアントです。ストリームは一連のブロックから成り、RTP パケットごとに 1 つのブロックがあります。各ブロックはブロックの長さ(バイト単位)を含むバイトから始まり、その後に 1 つ以上の Speex データのフレームが続きます。各データフレームは RFC 5574 で指定された整数バイト数(オクテット)になるようにパディングされます。言い換えると、各 RTP ヘッダーはブロック長を含む単一のバイトに置き換えられます。Speex ワイドバンドのみがサポートされています。sample_rate_hertz は 16000 にする必要があります。

RecognizeRequest

音声認識エンジンに Dictation を送信します。Note レコードを作成して Dictation に追加します。

項目
name

string

音声文字変換する Dictation のリソース名。

認可には、指定されたリソース name に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.recognize

speech_config_name

string

認識リクエストで使用する SpeechConfig 構成。音声構成は、完全な REST パス projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id} として指定できます。

認可には、指定されたリソース speechConfigName に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.get

enable_voice_actions

bool

認識エンジンが音声操作を検索するかどうかを決定します。

RecognizeResponse

Dictation に対する Recognize メソッドの最終レスポンス。この構造は google.longrunning.Operation.result.response に含まれ、Recognize 実行の詳細な結果を記述します。実行が終了した場合にのみ含まれます。

項目
note_name

string

Recognize の呼び出しから生成された、projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/dictations/{dictation_id}/notes/{note_id} 形式の Note のリソース名。

RecognizedAction

認識中に検出された音声操作。

以下のテーブルに可能な操作を示します。

音声操作RecognizedAction

テキスト選択

例: 患者へのヘモグロビンの選択

{ "action_name": "TextSelection",
  "confidence": 1.0,
  "param_results": [
     { "parameter_name": "FromText",
       "value": "hemoglobin" },
     { "parameter_name": "ToText",
       "value": "patient" }
  ]
}

テキストの選択を削除します。

例: 選択を解除


{ "action_name": "RemoveSelection",
  "confidence": 1.0
}

最後の発話または現在の文を削除します。

例: 元に戻す


{ "action_name": "Undo",
  "confidence": 0.8
}

新しい行を挿入します。

例: 新しい行


{ "action_name": "NewLine",
  "confidence": 1.0
}

新しい段落を挿入します。

例: 新しい段落


{ "action_name": "NewParagraph",
  "confidence": 1.0
}

前の単語にカーソルを移動します。

例: ヘモグロビンの前に挿入


{ "action_name": "InsertAt",
  "confidence": 0.5,
  "param_results": [
     { "parameter_name": "InsertLocation",
       "value": "before" },
     { "parameter_name": "InsertTarget",
       "value": "hemoglobin" }
  ]
}

カーソルを移動します。

例: 文の最後に移動


{ "action_name": "MoveCursor",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "MoveLocation",
       "value": "end" },
     { "parameter_name": "MoveTarget",
       "value": "sentence" }
  ]
}

カーソルのある位置にリストを作成します。

例: 挿入番号 1 低い bp


{ "action_name": "CreateList",
  "confidence": 0.6,
  "param_results": [
     { "parameter_name": "ListNum",
       "value": "1" },
     { "parameter_name": "InsertText",
       "value": "low pb" }
  ]
}

項目
action_name

string

検出されたアクションの名前。

confidence

float

信頼度の推定値は 0.0~1.0。数値が大きいほど、指定した音声操作である可能性が高くなります。

params[]

RecognizedActionParameter

検出されたアクションのパラメータのリスト。

RecognizedActionParameter

アクション パラメータを表します。

項目
parameter_name

string

アクションパラメータの名前(例: FromText)。

value

string

アクションパラメータの値(例: Foo)。

SpeechConfig

トレーニングと適応をサポートする構成レコード。実際の人間の話者は SpeechConfig 構成を共有しているか、それぞれに個別の Config があります。

項目
name

string

projects/{project_id}/locations/{location_id}/datasets/{dataset_id}/dictationStores/{dictation_store_id}/speechConfigs/{speech_config_id} 形式の Note のリソース名。サーバーによって割り当てられます。

recognition_config

RecognitionConfig

認識機能にリクエストの処理方法を指定する情報を提供します。

speaker_external_id

string

特定の Config を選択するために使用できる外部システムの ID。

speaker_human_name

string

指定された場合の人名。

SpeechRecognitionResult

音声の一部に対応する音声認識の結果。

項目
transcript

string

出力のみ。ユーザーが話した単語を表す音声文字変換テキスト。

confidence

float

出力のみ。信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、confidence が設定されなかったことを示す標識値です。

words[]

WordInfo

出力のみ。認識された各単語の、単語固有の情報のリスト。

channel_tag

int32

マルチ チャンネル音声の場合、これはそのチャンネルからの音声の認識結果に対応するチャンネル番号です。audio_channel_count = N の場合、出力値の範囲は「1」から「N」までです。

action

RecognizedAction

認識中に音声操作が検出されました。

StreamingRecognitionResult

現在処理されている音声の部分に対応するストリーミング音声認識の結果。

項目
speech_recognition_result

SpeechRecognitionResult

出力のみ。音声認識の増分結果is_finalfalse として返される限り、結果は変化します。結果が完全に安定した後、結果は保存された note リソースに追加され、is_finaltrueに設定されます。

is_final

bool

出力のみ。false の場合、この StreamingRecognitionResult は変更される可能性がある暫定的結果を表します。true の場合、これは音声サービスが特定の StreamingRecognitionResult を返す最終時刻です。認識機能は、文字起こしと対応する音声のこの部分について、それ以上の仮説を返しません。

stability

float

出力のみ。認識機能でこの暫定的な結果についての推測が変更されない可能性の推定値。値の範囲は 0.0(完全に不安定)~1.0(完全に安定)です。このフィールドは、暫定的結果(is_final=false)でのみ使用できます。デフォルトの 0.0 は、stability が設定されていないことを示す標識値です。

StreamingRecognizeRequest

[StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] メソッド向けにクライアントから送信される最上位レベルのメッセージ。複数の StreamingRecognizeRequest メッセージが送信されます。最初のメッセージには必ず stream_setup_info メッセージが含まれ、audio_content データが含まれることはありません。後続のすべてのメッセージには必ず audio_content データが含まれ、stream_setup_info メッセージが含まれることはありません。

フィールド
共用体フィールド streaming_request。ストリーミング リクエスト。ストリーミング設定情報または音声コンテンツです。streaming_request は次のいずれかになります。
stream_setup_info

RecognizeRequest

認識機能にリクエストの処理方法を指定する情報を提供します。最初の StreamingRecognizeRequest メッセージhには stream_setup_info メッセージを含める必要があります。

audio_content

bytes

認識する音声データ。音声データの連続したチャンクは、連続した StreamingRecognizeRequest メッセージで送信する必要があります。最初の StreamingRecognizeRequest メッセージに audio_content データを含めることはできません。また、後続のすべての StreamingRecognizeRequest メッセージに audio_content データを含める必要があります。音声バイトは RecognizeRequest で指定されたとおりにエンコードされる必要があります。注: すべてのバイト フィールドと同様に、protobuffers では(base64 ではなく)純 2 進表現を使用します。詳しくは、音声の制限を参照してください。

StreamingRecognizeResponse

StreamingRecognizeResponse は、[StreamingRecognize] [google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] によってクライアントに返される唯一のメッセージです。一連のゼロ個以上の StreamingRecognizeResponse メッセージがクライアントにストリーミングされます。認識可能な音声がなく、single_utterance が false に設定されている場合、メッセージはクライアントにストリーミングされません。

音声の処理中に返される一連の StreamingRecognizeResponse の例を次に示します。

  1. results { speech_recognition_result { transcript: "tube" } stability: 0.01 }

  2. results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }

  3. results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }

  4. results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }

  5. results { speech_recognition_result { transcript: " that's" } stability: 0.01 }

  6. results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }

  7. results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }

注:

  • is_final: true フィールドで示されているように、2 つ(#4 と #7)のレスポンスにのみ最終結果が含まれます。レスポンスを連結することで、完全な記録が生成されます。

  • 他のレスポンスには、中間 results が含まれます。#3 と #6 には 2 つの暫定的 results が含まれています。最初の部分は安定性が高く、変更される可能性は低くなります。2 つ目の部分は安定性が低く、変更される可能性が高くなります。

  • 上記の stabilityconfidence の値は、説明のみを目的としています。実際の値はこれとは異なる場合があります。

  • 各レスポンスでは、次のフィールドの1つのみが設定されます: errorspeech_event_type、または 1 つ以上の(繰り返し)results

項目
error

Status

出力のみ。ストリーミング オペレーションに関連付けられたエラー ステータス(ある場合)。

results[]

StreamingRecognitionResult

出力のみ。この繰り返しリストには、現在処理されている音声の連続する部分に対応する、ゼロ個以上の結果が含まれます。ゼロまたは 1 つの is_final=true 結果(新しく解決された部分)に続いて、ゼロまたはそれ以上の is_final=false 結果(暫定的結果)が続きます。

speech_event_type

SpeechEventType

出力のみ。speech イベントのタイプを示します。

SpeechEventType

speech イベントのタイプを示します。

列挙型
SPEECH_EVENT_TYPE_UNSPECIFIED speech イベントが指定されていません。
END_OF_SINGLE_UTTERANCE このイベントは、サーバーがユーザーの発話の終わりを検出し、これ以上発話が続くことはないと推測したことを示します。したがって、サーバーは追加の音声を処理しません(ただし、後で追加の結果を返すことがあります)。クライアントは追加の音声データの送信を停止し、gRPC 接続を半分閉じて、サーバーが gRPC 接続を閉じるまで追加の結果を待機する必要があります。このイベントは、single_utterancetrue に設定されている場合にのみ送信され、それ以外の場合には使用されません。

TrainingConsent

音声認識を改善するために与える同意のタイプを指定します。

列挙型
ALLOW トレーニングに同意する。
DISALLOW トレーニングに同意しない。

UpdateDictationRequest

指定された Dictation の更新をリクエストします。

項目
dictation

Dictation

サーバー上のリソースを更新するディクテーション リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。

認可には、指定されたリソース dictation に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.update

update_mask

FieldMask

リソースに適用される更新マスク。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

UpdateDictationStoreRequest

Dictation store を更新します。

項目
dictation_store

DictationStore

サーバー上のリソースを更新するディクテーション ストアリソース。update_マスクに一覧表示されたフィールドのみが適用されます。

認可には、指定されたリソース dictationStore に対する次の Google IAM 権限が必要です。

  • healthcare.dictationStores.update

update_mask

FieldMask

リソースに適用される更新マスク。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

UpdateNoteRequest

特定の Note を更新するリクエスト(例: SpeechConfig の更新)。

項目
note

Note

サーバー上のリソースを更新する Note リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。 自動認識型の Note は更新できません。Note を更新して、自動認識型を指定することはできません。

認可には、指定されたリソース note に対する次の Google IAM 権限が必要です。

  • healthcare.dictations.update

update_mask

FieldMask

リソースに適用される更新マスク。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

UpdateSpeechConfigRequest

指定された SpeechConfig の更新リクエスト(言語の更新など)。

項目
speech_config

SpeechConfig

サーバー上のリソースを更新する SpeechConfig リソース。update_マスクに一覧表示されているフィールドのみが必須または適用されます。

認可には、指定されたリソース speechConfig に対する次の Google IAM 権限が必要です。

  • healthcare.speechConfigs.update

update_mask

FieldMask

リソースに適用される更新マスク。FieldMask の定義については、https://developers.google.com/protocol-buffers/docs/reference/google.protobuf#fieldmask をご覧ください。

WordInfo

認識された単語の単語固有の情報。

項目
start_time_offset

Duration

出力のみ。単語の発話の開始時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、enable_word_time_offsets=true であり、かつ最上位の仮説にのみ設定されます。これは試験運用中の機能であり、時間オフセットの精度は変更される可能性があります。

end_time_offset

Duration

出力のみ。単語の発話の終了時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、enable_word_time_offsets=true であり、かつ最上位の仮説にのみ設定されます。これは試験運用中の機能であり、時間オフセットの精度は変更される可能性があります。

word

string

出力のみ。この情報セットに対応する単語。

confidence

float

出力のみ。信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、confidence が設定されなかったことを示す標識値です。