Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici oltre ad altri modelli di riconoscimento vocale standard e avanzato. I modelli medici sono appositamente studiati per il riconoscimento delle parole comuni in contesti medici, come diagnosi, farmaci, sintomi, trattamenti e condizioni. Se vuoi riconoscere questo tipo di dati audio, usa questi modelli per migliorare i risultati della trascrizione.

Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:

  • medical_conversation: per conversazioni tra un medico o un infermiere e un paziente. Utilizza questo modello quando parlano sia un medico sia un paziente. Le parole pronunciate da ogni persona vengono rilevate ed etichettate automaticamente nella trascrizione restituita.
  • medical_dictation: per le note dettate pronunciate da un singolo medico, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.

Utilizza solo modelli medici con le seguenti funzionalità di Speech-to-Text. Le caratteristiche omesse da questo elenco non possono essere utilizzate con nessuno dei due modelli medici.

Il modello di conversazione medica supporta le seguenti funzionalità:

e richiede l'attivazione delle seguenti funzionalità:

Il modello di dettatura medica supporta le seguenti funzionalità:

e richiede l'attivazione delle seguenti funzionalità:

Invio di una richiesta di trascrizione

REST

Il seguente esempio di codice utilizza il modello medical_conversation per trascrivere un file audio in un bucket Cloud Storage pubblico.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per en-US.
  • ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzi il campione audio pubblico, la codifica è LINEAR16.
  • PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON della richiesta:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura pronunciata

Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questa funzionalità è sempre abilitata. La punteggiatura pronunciata è delimitata da parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe essere simile al seguente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura pronunciata:

  • Punto
  • Virgola
  • Due punti
  • maiuscole
  • Barra
  • trattino
  • Trattino
  • punto interrogativo
  • Punto e virgola
  • virgoletta
  • non citazione
  • virgoletta finale
  • parentesi aperta
  • parentesi chiusa
  • parentesi chiusa

Comandi di formattazione

Il modello di dettatura medica supporta i comandi vocali per la formattazione delle note. Questa funzionalità è sempre abilitata. I comandi vocali sono riportati tra parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe essere simile al seguente:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

  • punto successivo
  • numero successivo
  • paragrafo successivo
  • maiuscole
  • lettere maiuscole
  • nuova riga
  • elemento successivo
  • problema successivo
  • numero del problema successivo
  • riga successiva
  • sezione successiva
  • numero successivo
  • graffio
  • grattalo
  • termina la dettatura

Intestazioni vocali

Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. Le intestazioni saranno delimitate da parentesi nella trascrizione e saranno in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile al seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni vocali:

  • RECLAMO
  • MEDICAZIONI ATTUALI
  • MEDICAZIONI PER DISPONIBILITÀ
  • PIANO DI SCARICA
  • CRONOLOGIA DELLA FAMIGLIA
  • RISULTATI
  • REVISIONE DEI SISTEMI
  • CRONOLOGIA DELLA MALATTIA PRESENTE
  • INDICAZIONI
  • LAB
  • CRONOLOGIA CHIRURGICA PASSATA
  • ESAME FISICO
  • REVISIONE DEI SISTEMI
  • RADIOLOGIA