医療モデルを使用して音声を認識する

Speech-to-Text には、他の標準および高度な音声認識モデルに加えて、2 つの医療モデルがあります。医療モデルは、診断、投薬、症状、治療法、健康状態など、医療現場でよく見られる単語の認識専用に設計されています。このタイプの音声データを認識する必要がある場合は、このモデルを使用して音声文字変換の結果を改善できます。

医療モデルには 2 つのモデルがあり、それぞれ固有のユースケースに合わせて調整されています。

  • medical_conversation: 医療従事者(医師や看護師など)と患者の会話用。このモデルは、医療従事者と患者の両方が話している場合に使用します。話者ごとに発話された単語は自動的に検出され、返された音声文字変換でラベル付けされます。
  • medical_dictation: 1 人の医療従事者によって発話された口述メモ用。たとえば、医師が患者の血液検査結果についてメモを音声入力する場合など。

医療モデルは、以下の音声入力機能でのみ使用してください。このリストにない機能は、どちらの医療モデルでも使用できません。

医療会話モデルは、次の機能をサポートしています。

また、以下の機能を有効にする必要があります。

医療ディクテーション モデルは、次の機能をサポートしています。

また、以下の機能を有効にする必要があります。

音声文字変換リクエストの送信

REST

次のコードサンプルでは、medical_conversation モデルを使用して Cloud Storage の公開バケットにある音声ファイルを文字変換します。

リクエストのデータを使用する前に、次のように置き換えます。

  • LANGUAGE_CODE: 音声クリップで使用されている言語の BCP-47 コード。医療モデルは en-US でのみ利用できます。
  • ENCODING: 文字変換する音声のエンコード。公開された音声サンプルを使用している場合、エンコードは LINEAR16 です。
  • PROJECT_ID: Google Cloud プロジェクトの英数字の ID。

HTTP メソッドと URL:

POST https://speech.googleapis.com/v1/speech:recognize

リクエストの本文(JSON):

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

次のような JSON レスポンスが返されます。

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

発話された句読点

医療ディクテーション モデルは、医療メモの発話された句読点をサポートします。この機能は常に有効になっています。発話された句読点は、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]

音声入力では、次の発話された句読点をサポートしています。

  • 句点
  • 読点
  • コロン
  • 大文字
  • スラッシュ
  • ダッシュ
  • ハイフン
  • 疑問符
  • セミコロン
  • 引用符
  • 引用終わり
  • 終了引用符
  • 開き括弧
  • 閉じ括弧
  • 括弧閉じ

書式設定コマンド

医療ディクテーション モデルは、メモを書式設定するための音声コマンドをサポートしています。この機能は常に有効になっています。音声コマンドは、音声文字変換内で括弧で囲まれます。たとえば、返される音声文字変換は次のようになります。

[next line] Patient says they are experiencing fever [next point]

音声入力では、次の音声コマンドをサポートしています。

  • 次の点
  • 次の数字
  • 次の段落
  • 大文字
  • 大文字で入力
  • 改行
  • 次のアイテム
  • 次の問題
  • 次の問題番号
  • 次の行
  • 次のセクション
  • 次の番号
  • 抹消
  • 単語を抹消
  • 音声入力の終了

発話された見出し

医療ディクテーション モデルは、口述メモの発話された見出しをサポートしています。この機能はデフォルトで有効で、無効にすることはできません。見出しは、音声文字変換内で括弧で囲まれ、大文字で表記されます。たとえば、返される音声文字変換は次のようになります。

[CURRENT MEDICATIONS] Patient is currently taking no medications

音声入力では、次の発話された見出しをサポートしています。

  • 所長の苦情
  • 現在の投薬
  • 退院の際の薬
  • 退院の計画
  • 家族歴
  • 所見
  • システムのレビュー
  • 現在の疾患の履歴
  • 適応
  • ラボ
  • 過去の外科手術歴
  • 身体検査
  • システムのレビュー
  • 放射線