医療モデルを使用して音声を認識する

Speech-to-Text には、他の標準および高度な音声認識モデルに加えて、2 つの医療モデルがあります。医療モデルは、診断、投薬、症状、治療法、健康状態など、医療現場でよく見られる単語の認識専用に設計されています。このタイプの音声データを認識する必要がある場合は、このモデルを使用して音声文字変換の結果を改善できます。

医療モデルには 2 つのモデルがあり、それぞれ固有のユースケースに合わせて調整されています。

medical_conversation: 医療従事者（医師や看護師など）と患者の会話用。このモデルは、医療従事者と患者の両方が話している場合に使用します。話者ごとに発話された単語は自動的に検出され、返された音声文字変換でラベル付けされます。
medical_dictation: 1 人の医療従事者によって発話された口述メモ用。たとえば、医師が患者の血液検査結果についてメモを音声入力する場合など。

医療モデルは、以下の音声入力機能でのみ使用してください。このリストにない機能は、どちらの医療モデルでも使用できません。句読点入力の自動化機能は、デフォルトで有効になっています。

医療会話モデルは、次の機能をサポートしています。

話者ダイアライゼーション

医療ディクテーションモデルは、次の機能をサポートしています。

発話された句読点
書式設定コマンド
発話された見出し

音声文字変換リクエストの送信

REST

次のコードサンプルでは、medical_conversation モデルを使用して Cloud Storage の公開バケットにある音声ファイルを文字変換します。

リクエストのデータを使用する前に、次のように置き換えます。

LANGUAGE_CODE: 音声クリップで使用されている言語の BCP-47 コード。医療モデルは en-US でのみ利用できます。
ENCODING: 文字変換する音声のエンコード。公開された音声サンプルを使用している場合、エンコードは LINEAR16 です。
PROJECT_ID: Google Cloud プロジェクトの英数字の ID。

HTTP メソッドと URL:

POST https://speech.googleapis.com/v1/speech:recognize

リクエストの本文（JSON）:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

リクエストを送信するには、次のいずれかのオプションを開きます。

curl（Linux、macOS、Cloud Shell）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell（Windows）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

発話された句読点

医療ディクテーションモデルは、医療メモの発話された句読点をサポートします。この機能はデフォルトで有効で、無効にすることはできません。発話された句読点は、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]。

音声入力では、次の発話された句読点をサポートしています。

句点
読点
コロン
大文字
スラッシュ
ダッシュ
ハイフン
疑問符
セミコロン
引用符
引用終わり
終了引用符
開き括弧
閉じ括弧
括弧閉じ

書式設定コマンド

医療ディクテーションモデルは、メモを書式設定するための音声コマンドをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。音声コマンドは、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

[next line] Patient says they are experiencing fever [next point]。

音声入力では、次の音声コマンドをサポートしています。

次の点
次の数字
次の段落
大文字
大文字で入力
改行
次のアイテム
次の問題
次の問題番号
次の行
次のセクション
次の番号
抹消
単語を抹消
音声入力の終了

発話された見出し

医療ディクテーションモデルは、口述メモの発話された見出しをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。見出しは、音声文字変換内で括弧で囲まれ、大文字で表記されます。たとえば、返される音声文字変換は次のようになります。

[CURRENT MEDICATIONS] Patient is currently taking no medications。

音声入力では、次の発話された見出しをサポートしています。

所長の苦情
現在の投薬
退院の際の薬
退院の計画
家族歴
所見
システムのレビュー
現在の疾患の履歴
適応
ラボ
過去の外科手術歴
身体検査
システムのレビュー
放射線