医療モデルを使用して音声を認識する

Speech-to-Text には、他の標準および高度な音声認識モデルに加えて、2 つの医療モデルがあります。医療モデルは、診断、投薬、症状、治療法、健康状態など、医療現場でよく見られる単語の認識専用に設計されています。このタイプの音声データを認識する必要がある場合は、このモデルを使用して音声文字変換の結果を改善できます。

医療モデルには 2 つのモデルがあり、それぞれ固有のユースケースに合わせて調整されています。

medical_conversation: 医療従事者（医師や看護師など）と患者の会話用。このモデルは、医療従事者と患者の両方が話している場合に使用します。話者ごとに発話された単語は自動的に検出され、返された音声文字変換でラベル付けされます。
medical_dictation: 1 人の医療従事者によって発話された口述メモ用。たとえば、医師が患者の血液検査結果についてメモを音声入力する場合など。

医療モデルは、以下の音声入力機能でのみ使用してください。このリストにない機能は、どちらの医療モデルでも使用できません。句読点入力の自動化機能は、デフォルトで有効になっています。

医療会話モデルは、次の機能をサポートしています。

話者ダイアライゼーション

医療ディクテーションモデルは、次の機能をサポートしています。

発話された句読点
書式設定コマンド
発話された見出し

音声文字変換リクエストの送信

REST

次のコードサンプルでは、medical_conversation モデルを使用して Cloud Storage の公開バケットにある音声ファイルを文字変換します。

リクエストのデータを使用する前に、次のように置き換えます。

LANGUAGE_CODE: 音声クリップで使用されている言語の BCP-47 コード。医療モデルは en-US でのみ利用できます。
ENCODING: 文字変換する音声のエンコード。公開された音声サンプルを使用している場合、エンコードは LINEAR16 です。
PROJECT_ID: Google Cloud プロジェクトの英数字の ID。

HTTP メソッドと URL:

POST https://speech.googleapis.com/v1/speech:recognize

リクエストの本文（JSON）:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell（Windows）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

発話された句読点

医療ディクテーションモデルは、医療メモの発話された句読点をサポートします。この機能はデフォルトで有効で、無効にすることはできません。発話された句読点は、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]。

音声入力では、次の発話された句読点をサポートしています。

句点
読点
コロン
大文字
スラッシュ
ダッシュ
ハイフン
疑問符
セミコロン
引用符
引用終わり
終了引用符
開き括弧
閉じ括弧
括弧閉じ

書式設定コマンド

医療ディクテーションモデルは、メモを書式設定するための音声コマンドをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。音声コマンドは、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

[next line] Patient says they are experiencing fever [next point]。

音声入力では、次の音声コマンドをサポートしています。

次の点
次の数字
次の段落
大文字
大文字で入力
改行
次のアイテム
次の問題
次の問題番号
次の行
次のセクション
次の番号
抹消
単語を抹消
音声入力の終了

発話された見出し

医療ディクテーションモデルは、口述メモの発話された見出しをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。見出しは、音声文字変換内で括弧で囲まれ、大文字で表記されます。たとえば、返される音声文字変換は次のようになります。

[CURRENT MEDICATIONS] Patient is currently taking no medications。

音声入力では、次の発話された見出しをサポートしています。

所長の苦情
現在の投薬
退院の際の薬
退院の計画
家族歴
所見
システムのレビュー
現在の疾患の履歴
適応
ラボ
過去の外科手術歴
身体検査
システムのレビュー
放射線

医療モデルを使用して音声を認識する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

音声文字変換リクエストの送信

REST

curl（Linux、macOS、Cloud Shell）

PowerShell（Windows）

発話された句読点

書式設定コマンド

発話された見出し

医療モデルを使用して音声を認識する