Esta página se ha traducido con Cloud Translation API.

Reconocer la voz con modelos médicos

Speech-to-Text ofrece dos modelos médicos, además de otros modelos de reconocimiento de voz estándar y mejorados. Los modelos médicos se han diseñado específicamente para reconocer palabras que son habituales en entornos médicos, como diagnósticos, medicamentos, síntomas, tratamientos y enfermedades. Si quieres reconocer este tipo de datos de audio, puedes mejorar los resultados de la transcripción usando estos modelos.

Hay dos modelos médicos, cada uno adaptado a casos prácticos específicos:

medical_conversation: para conversaciones entre un profesional sanitario (por ejemplo, un médico o una enfermera) y un paciente. Usa este modelo cuando hablen tanto el proveedor como el paciente. Las palabras que pronuncia cada interlocutor se detectan y etiquetan automáticamente en la transcripción devuelta.
medical_dictation: para notas dictadas por un solo profesional sanitario, como un médico que dicta notas sobre los resultados de los análisis de sangre de un paciente.

Utiliza los modelos médicos solo con las siguientes funciones de Speech-to-Text. Las funciones que no aparecen en esta lista no se pueden usar con ninguno de los modelos médicos.

El modelo de conversación médica admite las siguientes funciones:

y requiere que se habiliten las siguientes funciones:

Puntuación automática

El modelo de dictado médico admite las siguientes funciones:

y requiere que se habiliten las siguientes funciones:

Enviar una solicitud de transcripción

REST

En el siguiente ejemplo de código se usa el modelo medical_conversation para transcribir un archivo de audio de un segmento público de Cloud Storage.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

LANGUAGE_CODE: el código BCP-47 del idioma que se habla en el clip de audio. Los modelos médicos solo están disponibles en inglés de EE. UU.
ENCODING: la codificación del audio que quieras transcribir. Si usas la muestra de audio pública, la codificación es LINEAR16.
PROJECT_ID: el ID alfanumérico de tu proyecto de Google Cloud .

Método HTTP y URL:

POST https://speech.googleapis.com/v1/speech:recognize

Cuerpo JSON de la solicitud:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Para enviar tu solicitud, despliega una de estas opciones:

curl (Linux, macOS o Cloud Shell)

Nota: En el siguiente comando se presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login o bien usando Cloud Shell, que inicia sesión automáticamente en la CLI de gcloud . Para comprobar qué cuenta está activa, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Nota: El siguiente comando presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login . Para comprobar qué cuenta está activa, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la siguiente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Puntuación hablada

El modelo de dictado médico admite la puntuación hablada para las notas médicas. Esta función está siempre habilitada. La puntuación hablada se delimita con corchetes en la transcripción de voz. Por ejemplo, la transcripción que obtengas podría ser similar a la siguiente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text admite los siguientes signos de puntuación hablados:

punto
coma
dos puntos
gorras
barra
raya
guion
signo de interrogación de cierre
punto y coma
comillas
descomillas
acabar cita
paréntesis de apertura
paréntesis de cierre
paréntesis de cierre

Comandos de formato

El modelo de dictado médico admite comandos de voz para dar formato a las notas. Esta función está siempre habilitada. Los comandos de voz se delimitarán con corchetes en la transcripción de voz. Por ejemplo, la transcripción que recibas podría ser similar a la siguiente:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text admite los siguientes comandos de voz:

siguiente punto
siguiente número
Párrafo siguiente
gorras
Uso de mayúsculas
nueva línea
Siguiente elemento
siguiente problema
Número del siguiente problema
Fila siguiente
Siguiente sección
número siguiente
rascar
scratch that
end dictation

Encabezados hablados

El modelo de dictado médico admite encabezados hablados para las notas dictadas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los encabezados se delimitarán con corchetes en la transcripción y se escribirán con mayúscula inicial. Por ejemplo, la transcripción que obtengas podría ser similar a la siguiente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text admite los siguientes encabezados hablados:

MOTIVO PRINCIPAL DE LA CONSULTA
MEDICACIÓN ACTUAL
MEDICACIÓN AL ALTA
PLAN DE ALTA
HISTORIAL FAMILIAR
CONCLUSIONES
REVISIÓN DE LOS SISTEMAS
HISTORIAL DE LA ENFERMEDAD ACTUAL
INDICACIONES
LABS
ANTECEDENTES QUIRÚRGICOS
EXPLORACIÓN FÍSICA
REVISIÓN DE LOS SISTEMAS
RADIOLOGY

Reconocer la voz con modelos médicos Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Enviar una solicitud de transcripción

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Puntuación hablada

Comandos de formato

Encabezados hablados

Reconocer la voz con modelos médicos