En Speech-to-Text, se ofrecen dos modelos médicos, además de los otros modelos de reconocimiento de voz estándar y mejorados. Los modelos médicos se ajustan específicamente para el reconocimiento de palabras que son comunes en entornos médicos, como de diagnósticos, medicamentos, síntomas, tratamientos y afecciones. Si deseas reconocer este tipo de datos de audio, puedes mejorar los resultados de tu transcripción con estos modelos.
Existen dos modelos médicos, cada uno adaptado a casos de uso específicos:
medical_conversation
: para conversaciones entre un proveedor de atención médica, como un médico o una enfermera, y un paciente. Usa este modelo cuando hablen un proveedor y un paciente. Las palabras que dice cada interlocutor se detectan y etiquetan de forma automática en la transcripción que se muestra.medical_dictation
: para notas dictadas por un solo proveedor médico, por ejemplo, un médico que dicta notas sobre los resultados de la prueba de salud de un paciente.
Usa modelos médicos solo con las siguientes funciones de Speech-to-Text. Las funciones que se omiten de esta lista no se pueden usar con ningún modelo médico. La función de puntuación automática está habilitada de forma predeterminada.
- Puntuación automática
- Transcripciones alternativas
- Marcas de tiempo de palabras
- Confianza a nivel de palabra
El modelo de conversación médica admite las siguientes funciones:
El modelo de dictado médico admite las siguientes funciones:
Envía una solicitud de transcripción
REST
En la siguiente muestra de código, se usa el modelo medical_conversation
para transcribir un archivo de audio en un bucket público de Cloud Storage.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
LANGUAGE_CODE
: Es el código BCP-47 del idioma que se habla en el clip de audio. Los modelos médicos solo están disponibles para en-US.ENCODING
: Es la codificación del audio que deseas transcribir. Si usas la muestra de audio pública, la codificación esLINEAR16
.PROJECT_ID
: el ID alfanumérico del proyecto de Google Cloud.
HTTP method and URL:
POST https://speech.googleapis.com/v1/speech:recognize
Cuerpo JSON de la solicitud:
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "model": "medical_conversation" }, "audio": { "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav" } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
"results": [ { "alternatives": [ { "transcript": "Um-hum . Yeah. Hello , good morning . Good morning . So , tell me what's going on . Uh , sure , so , um , I woke up probably three or four days ago , which , uh , wheezing and short of breath . Okay , any cough or chest pain ? I cough infrequently , but no , uh , chest pain . Have you been exposed to anyone with covid ? Uh , no , and I also took a test , which was negative . Uh , is it getting worse , or better ? Uh , it has been getting a lot worse" } ] }, { "alternatives": [ { "transcript": "Okay . Was there something that triggered this exposure to cold , for example ? Um , I had a gone hiking , and I got caught in the rain the day before this all started ." } ] } ] }
Puntuación por voz
El modelo de dictado médico admite la puntuación hablada para las notas médicas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. La puntuación hablada está delimitada por corchetes en la transcripción de voz. Por ejemplo, la transcripción que se muestra puede ser similar a la que se muestra a continuación:
Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]
.
Speech-to-Text admite la siguiente puntuación hablada:
- punto
- coma
- dos puntos
- mayúsculas
- barra
- guion
- guion
- signo de interrogación
- punto y coma
- comilla
- sin comillas
- fin de la cita
- paréntesis de apertura
- paréntesis de cierre
- paréntesis de fin
Comandos de formato
El modelo de dictado médico admite comandos por voz para dar formato a las notas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los comandos hablados se definirán con corchetes en la transcripción de voz. Por ejemplo, la transcripción que se muestra puede ser similar a la que se muestra a continuación:
[next line] Patient says they are experiencing fever [next point]
.
Speech-to-Text es compatible con los siguientes comandos por voz:
- siguiente punto
- Siguiente número
- Párrafo siguiente
- mayúsculas
- uso de mayúsculas
- nueva línea
- siguiente elemento
- problema siguiente
- número del siguiente problema
- fila siguiente
- siguiente sección
- número siguiente
- raspa
- raspa eso
- dictado final
Encabezados hablados
El modelo de dictado médico admite encabezados hablados para notas dictadas. Esta función está habilitada de forma predeterminada y no se puede inhabilitar. Los encabezados estarán delimitados por corchetes en la transcripción y se escribirán en mayúscula. Por ejemplo, la transcripción que se muestra puede ser similar a la que se muestra a continuación:
[CURRENT MEDICATIONS] Patient is currently taking no medications
.
Speech-to-Text admite los siguientes encabezados hablados:
- ENFERMEDAD ACTUAL
- MEDICAMENTOS ACTUALES
- MEDICAMENTOS DE ALTA
- PLAN DE ALTA
- HISTORIAL FAMILIAR
- RESULTADOS
- REVISIÓN DE SISTEMAS
- HISTORIAL DE ENFERMEDAD ACTUAL
- INDICACIONES
- LABS
- HISTORIAL QUIRÚRGICO
- EXAMEN FÍSICO
- REVISIÓN DE SISTEMAS
- RADIOLOGÍA