Reconnaître la voix à l'aide de modèles médicaux

Speech-to-Text propose deux modèles médicaux en plus des modèles de reconnaissance vocale standards et améliorés. Les modèles médicaux sont spécialement conçus pour reconnaître les mots courants dans les contextes médicaux, tels que les diagnostics, les médicaments, les symptômes, les traitements et les maladies. Si vous souhaitez reconnaître ce type de données audio, vous pouvez améliorer vos résultats de transcription en utilisant ces modèles.

Il existe deux modèles médicaux, chacun étant adapté à des cas d'utilisation spécifiques :

medical_conversation : pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez ce modèle lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés dans la transcription renvoyée.
medical_dictation : pour les notes dictées prononcées par un seul prestataire de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient.

Utilisez les modèles médicaux uniquement avec les fonctionnalités Speech-to-Text suivantes. Les fonctionnalités ne figurant pas dans cette liste ne peuvent pas être utilisées avec un modèle médical. La fonctionnalité de ponctuation automatique est activée par défaut.

Le modèle de conversation médicale est compatible avec les fonctionnalités suivantes :

Identification du locuteur

Le modèle de dictée médicale est compatible avec les fonctionnalités suivantes :

Ponctuation énoncée
Commandes de mise en forme
Titres énoncés

Envoyer une requête de transcription

REST

L'exemple de code suivant utilise le modèle medical_conversation pour transcrire un fichier audio dans un bucket public Cloud Storage.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

LANGUAGE_CODE : code BCP-47 de la langue parlée dans votre extrait audio. Les modèles médicaux ne sont disponibles que pour l'anglais américain.
ENCODING : encodage du contenu audio que vous souhaitez transcrire. Si vous utilisez l'échantillon audio public, l'encodage est LINEAR16.
PROJECT_ID : ID alphanumérique de votre projet Google Cloud.

Méthode HTTP et URL :

POST https://speech.googleapis.com/v1/speech:recognize

Corps JSON de la requête :

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Pour envoyer votre requête, développez l'une des options suivantes :

curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON de ce type :

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Ponctuation énoncée

Le modèle de dictée médicale est compatible avec la ponctuation énoncée lors de notes médicales dictées. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. La ponctuation énoncée est délimitée par des crochets dans la transcription vocale. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text accepte l'énonciation des signes de ponctuation suivants :

point
virgule
deux-points
lettrine
barre oblique
tiret
trait d'union
point d'interrogation
point-virgule
guillemet
guillemet fermant
fermer les guillemets
parenthèse ouvrante
parenthèse fermante
parenthèse fermante

Commandes de mise en forme

Le modèle de dictée médicale exploite des commandes vocales pour procéder à la mise en forme des notes. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. Les commandes vocales sont délimitées par des crochets dans la transcription vocale. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text accepte les commandes vocales suivantes :

taille de police supérieure
numéro de liste suivant
paragraphe suivant
lettrine
mise en majuscules
nouvelle ligne
élément suivant
problème suivant
numéro de problème suivant
ligne suivante
section suivante
continuer la numérotation à la ligne suivante
scratch
effacer la dernière phrase prononcée
fin de la dictée

Titres énoncés

Le modèle de dictée médicale est compatible avec les titres énoncés pour les notes dictées. Cette fonctionnalité est activée par défaut et ne peut pas être désactivée. Les titres sont délimités par des crochets dans la transcription et sont définis en majuscules. Par exemple, la transcription renvoyée peut ressembler à ce qui suit :

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text accepte les titres énoncés suivants :

MOTIF DE CONSULTATION
TRAITEMENTS EN COURS
TRAITEMENT EN SORTIE D'HOSPITALISATION
DOSSIER DE SORTIE D'HOSPITALISATION
ANTÉCÉDENTS FAMILIAUX
FINDINGS
BILAN FONCTIONNEL
HISTORIQUE DE LA PATHOLOGIE ACTUELLE
SYMPTÔMES
LABORATOIRES
ANTÉCÉDENTS CHIRURGICAUX
EXAMEN PHYSIQUE
BILAN FONCTIONNEL
RADIOLOGIE