Reconnaître la voix à l'aide de modèles médicaux

Speech-to-Text propose deux modèles médicaux en plus des modèles de reconnaissance vocale standards et améliorés. Les modèles médicaux sont spécialement conçus pour reconnaître les mots courants dans les contextes médicaux, tels que les diagnostics, les médicaments, les symptômes, les traitements et les maladies. Si vous souhaitez reconnaître ce type de données audio, vous pouvez améliorer vos résultats de transcription en utilisant ces modèles.

Il existe deux modèles médicaux, chacun étant adapté à des cas d'utilisation spécifiques :

  • medical_conversation : pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez ce modèle lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés dans la transcription renvoyée.
  • medical_dictation : pour les notes dictées prononcées par un seul prestataire de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient.

Utilisez les modèles médicaux uniquement avec les fonctionnalités Speech-to-Text suivantes. Les fonctionnalités ne figurant pas dans cette liste ne peuvent pas être utilisées avec un modèle médical. La fonctionnalité de ponctuation automatique est activée par défaut.

Le modèle de conversation médicale est compatible avec les fonctionnalités suivantes :

Le modèle de dictée médicale est compatible avec les fonctionnalités suivantes :

Envoyer une requête de transcription

REST

L'exemple de code suivant utilise le modèle medical_conversation pour transcrire un fichier audio dans un bucket public Cloud Storage.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LANGUAGE_CODE : code BCP-47 de la langue parlée dans votre extrait audio. Les modèles médicaux ne sont disponibles que pour l'anglais américain.
  • ENCODING : encodage du contenu audio que vous souhaitez transcrire. Si vous utilisez l'échantillon audio public, l'encodage est LINEAR16.
  • PROJECT_ID : ID alphanumérique de votre projet Google Cloud.

Méthode HTTP et URL :

POST https://speech.googleapis.com/v1/speech:recognize

Corps JSON de la requête :

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Ponctuation énoncée

Le modèle de dictée médicale est compatible avec la ponctuation énoncée lors de notes médicales dictées. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. La ponctuation énoncée est délimitée par des crochets dans la transcription vocale. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text accepte l'énonciation des signes de ponctuation suivants :

  • point final
  • virgule
  • deux-points
  • lettrine
  • barre oblique
  • tiret
  • trait d'union
  • point d'interrogation
  • point-virgule
  • guillemet
  • guillemet fermant
  • fermer les guillemets
  • parenthèse ouvrante
  • parenthèse fermante
  • parenthèse fermante

Commandes de mise en forme

Le modèle de dictée médicale exploite des commandes vocales pour procéder à la mise en forme des notes. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. Les commandes vocales sont délimitées par des crochets dans la transcription vocale. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text accepte les commandes vocales suivantes :

  • taille de police supérieure
  • numéro de liste suivant
  • paragraphe suivant
  • mise en majuscules
  • mise en majuscules de la première lettre de chaque mot
  • nouvelles lignes
  • élément suivant
  • problème suivant
  • numéro de problème suivant
  • ligne suivante
  • section suivante
  • continuer la numérotation à la ligne suivante
  • scratch
  • effacer la dernière phrase prononcée
  • fin de la dictée

Titres énoncés

Le modèle de dictée médicale est compatible avec les titres énoncés pour les notes dictées. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. Les titres sont délimités par des crochets dans la transcription et sont définis en majuscules. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text accepte les titres énoncés suivants :

  • MOTIF DE CONSULTATION
  • TRAITEMENTS EN COURS
  • TRAITEMENT EN SORTIE D'HOSPITALISATION
  • DOSSIER DE SORTIE D'HOSPITALISATION
  • ANTÉCÉDENTS FAMILIAUX
  • FINDINGS
  • BILAN FONCTIONNEL
  • HISTORIQUE DE LA PATHOLOGIE ACTUELLE
  • SYMPTÔMES
  • LABORATOIRES
  • ANTÉCÉDENTS CHIRURGICAUX
  • EXAMEN PHYSIQUE
  • BILAN FONCTIONNEL
  • RADIOLOGIE