请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。 请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。

使用医疗模型识别语音

除了其他标准和增强型语音识别模型之外，Speech-to-Text 还提供两个医疗模型。医疗模型专用于识别医疗环境中常见的字词，涉及诊断方法、药物、症状、治疗过程以及各种疾病等各个方面。如果您想要识别此类音频数据，则可以使用这些模型来改进转录结果。

我们提供两种医疗模型，每种模型都针对特定用例量身定制：

medical_conversation：用于医疗服务提供方（例如医生或护士）与患者之间的对话。当医者和患者都在讲话时，请使用此模型。系统会自动检测每个讲话人说出的字词并在返回的转录内容中添加相应的标签。
medical_dictation：用于由单个医疗服务提供方口述的备注，例如医生口述有关患者验血结果的备注。

只能将医疗模型与以下 Speech-to-Text 功能搭配使用。此列表中未包含的功能无法用于任何医疗模型。自动加注标点符号功能默认处于启用状态。

医疗对话模型支持以下功能：

讲话人区分

医疗语音输入模型支持以下功能：

口头标点符号
设置命令格式
口头标题

发送转录请求

REST

以下代码示例使用 medical_conversation 模型在公共 Cloud Storage 存储桶中转录音频文件。

在使用任何请求数据之前，请先进行以下替换：

LANGUAGE_CODE：音频剪辑中所用语言的 BCP-47 代码。医疗模型仅适用于 en-US。
ENCODING：要转录的音频的编码。如果您使用的是公共音频样本，则编码为 LINEAR16。
PROJECT_ID：您的 Google Cloud 项目的字母数字 ID。

HTTP 方法和网址：

POST https://speech.googleapis.com/v1/speech:recognize

请求 JSON 正文：

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

如需发送您的请求，请展开以下选项之一：

curl（Linux、macOS 或 Cloud Shell）

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应：

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

口头标点符号

医疗语音输入模型支持为医学备注使用口头标点符号。此功能默认处于启用状态，并且无法停用。语音标点符号由语音转录中的括号分隔。例如，返回的转录内容可能类似于以下形式：

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]。

Speech-to-Text 支持以下口语标点符号：

句号
逗号
冒号
大写
正斜线
短横线
连字符
问号
分号
引号
结束引用
右双引号
左括号
右括号
结束括号

设置命令格式

医疗语音输入模型支持使用语音命令来设置备注的格式。此功能默认处于启用状态，并且无法停用。在语音转录中，语音命令将用括号分隔。例如，返回的转录内容可能类似于以下形式：

[next line] Patient says they are experiencing fever [next point]。

Speech-to-Text 支持以下语音命令：

下一个点
下一个数字
下一个段落
大写
大写字母
换行
下一项
下一个问题
下一个问题编号
下一行
下一部分
下一个数字
划掉
换个说法
结束语音输入

口头标题

医疗语音输入模型支持语音输入备注的语音标题。此功能默认处于启用状态，并且无法停用。标题在转录中将以用括号分隔，并采用大写形式。例如，返回的转录内容可能类似于以下形式：

[CURRENT MEDICATIONS] Patient is currently taking no medications。

Speech-to-Text 支持以下语音标题：

病人主诉
药物治疗现况
出院后用药
出院计划
家族史
发现结果
系统回顾
现病史
适应症
实验
以往手术史
体检
系统回顾
放射学