Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici oltre agli altri modelli di riconoscimento vocale standard e avanzati. I modelli medici sono personalizzati in modo specifico per il riconoscimento delle parole comuni in ambito medico, come diagnosi, farmaci, sintomi, cure e patologie. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.

Esistono due modelli medici, ognuno personalizzato in casi d'uso specifici:

  • medical_conversation: per le conversazioni tra un medico, ad esempio un medico o un infermiere, e un paziente. Utilizza questo modello quando sia un medico che un paziente parlano. Le parole pronunciate da ogni relatore vengono rilevate automaticamente ed etichettate nella trascrizione restituita.
  • medical_dictation: per le note dettate da un singolo medico, ad esempio un medico che detta note sui risultati del test del sangue di un paziente.

Utilizza i modelli medici solo con le seguenti funzionalità di Speech-to-Text. Le caratteristiche omesse da questo elenco non possono essere utilizzate con nessun modello medico. La funzione di punteggiatura automatica è abilitata per impostazione predefinita.

Il modello per conversazioni mediche supporta le seguenti funzionalità:

Il modello di dettatura medica supporta le seguenti funzionalità:

Invio di una richiesta di trascrizione

REST &CMD LINE

Il seguente esempio di codice utilizza il modello medical_conversation per trascrivere un file audio in un bucket Cloud Storage pubblico.

Prima di utilizzare uno qualsiasi dei dati della richiesta, effettua le seguenti sostituzioni:

  • LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per en-US.
  • ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzi il campione audio pubblico, la codifica è LINEAR16.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON richiesta:

{
  "config": {
    "languageCode":LANGUAGE_CODE,
    "encoding":ENCODING
    "model": medical_conversation
  },
  'audio':{
    'uri':'gs://cloud-samples-data/speech/medical_conversation_2.wav'
  }
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura vocale

Il modello di dettatura supporta la punteggiatura vocale per le note mediche. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. La punteggiatura parlata è delimitata da parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura vocale:

  • punto
  • virgola
  • due punti
  • maiuscole
  • barra
  • trattino
  • trattino
  • punto interrogativo
  • punto e virgola
  • virgoletta
  • annulla virgolette
  • virgoletta finale
  • parentesi aperta
  • parentesi chiusa
  • parentesi chiusa

Comandi di formattazione

Il modello di dettatura supporta i comandi vocali per la formattazione delle note. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. I comandi vocali verranno delimitati da parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

  • punto successivo
  • numero successivo
  • paragrafo successivo
  • maiuscole
  • uso delle maiuscole
  • nuova riga
  • elemento successivo
  • problema successivo
  • numero di problema successivo
  • riga successiva
  • sezione successiva
  • numero successivo
  • gratta
  • gratta
  • termina dettatura

Intestazioni vocali

Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. Le intestazioni verranno delimitate da parentesi nella trascrizione e saranno in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni vocali:

  • RECLAMO CHIEF
  • MEDICAZIONI ATTUALI
  • MEDICAZIONI DI DISCARICA
  • PIANO DI SCARICA
  • CRONOLOGIA FAMIGLIE
  • RISULTATI
  • REVISIONE DI SISTEMI
  • CRONOLOGIA DELLA TUA MALATTIA
  • INDICAZIONI
  • LABS
  • CRONOLOGIA CHIRURGICA IN CORSO
  • ESAME FISICO
  • REVISIONE DI SISTEMI
  • RADIOLOGIA