Speech-to-Text には、他の標準および高度な音声認識モデルに加えて、2 つの医療モデルがあります。医療モデルは、診断、投薬、症状、治療法、健康状態など、医療現場でよく見られる単語の認識専用に設計されています。このタイプの音声データを認識する必要がある場合は、このモデルを使用して音声文字変換の結果を改善できます。
医療モデルには 2 つのモデルがあり、それぞれ固有のユースケースに合わせて調整されています。
medical_conversation
: 医療従事者(医師や看護師など)と患者の会話用。このモデルは、医療従事者と患者の両方が話している場合に使用します。話者ごとに発話された単語は自動的に検出され、返された音声文字変換でラベル付けされます。medical_dictation
: 1 人の医療従事者によって発話された口述メモ用。たとえば、医師が患者の血液検査結果についてメモを音声入力する場合など。
医療モデルは、以下の音声入力機能でのみ使用してください。このリストにない機能は、どちらの医療モデルでも使用できません。
医療会話モデルは、次の機能をサポートしています。
また、以下の機能を有効にする必要があります。
医療ディクテーション モデルは、次の機能をサポートしています。
また、以下の機能を有効にする必要があります。
音声文字変換リクエストの送信
REST
次のコードサンプルでは、medical_conversation
モデルを使用して Cloud Storage の公開バケットにある音声ファイルを文字変換します。
リクエストのデータを使用する前に、次のように置き換えます。
LANGUAGE_CODE
: 音声クリップで使用されている言語の BCP-47 コード。医療モデルは en-US でのみ利用できます。ENCODING
: 文字変換する音声のエンコード。公開された音声サンプルを使用している場合、エンコードはLINEAR16
です。PROJECT_ID
: Google Cloud プロジェクトの英数字の ID。
HTTP メソッドと URL:
POST https://speech.googleapis.com/v1/speech:recognize
リクエストの本文(JSON):
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
発話された句読点
医療ディクテーション モデルは、医療メモの発話された句読点をサポートします。この機能は常に有効になっています。発話された句読点は、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
。
音声入力では、次の発話された句読点をサポートしています。
- 句点
- 読点
- コロン
- 大文字
- スラッシュ
- ダッシュ
- ハイフン
- 疑問符
- セミコロン
- 引用符
- 引用終わり
- 終了引用符
- 開き括弧
- 閉じ括弧
- 括弧閉じ
書式設定コマンド
医療ディクテーション モデルは、メモを書式設定するための音声コマンドをサポートしています。この機能は常に有効になっています。音声コマンドは、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。
[next line] Patient says they are experiencing fever [next point]
。
音声入力では、次の音声コマンドをサポートしています。
- 次の点
- 次の数字
- 次の段落
- 大文字
- 大文字で入力
- 改行
- 次のアイテム
- 次の問題
- 次の問題番号
- 次の行
- 次のセクション
- 次の番号
- 抹消
- 単語を抹消
- 音声入力の終了
発話された見出し
医療ディクテーション モデルは、口述メモの発話された見出しをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。見出しは、音声文字変換内で括弧で囲まれ、大文字で表記されます。たとえば、返される音声文字変換は次のようになります。
[CURRENT MEDICATIONS] Patient is currently taking no medications
。
音声入力では、次の発話された見出しをサポートしています。
- 所長の苦情
- 現在の投薬
- 退院の際の薬
- 退院の計画
- 家族歴
- 所見
- システムのレビュー
- 現在の疾患の履歴
- 適応
- ラボ
- 過去の外科手術歴
- 身体検査
- システムのレビュー
- 放射線