Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici oltre agli altri modelli di riconoscimento vocale standard e avanzato. I modelli medici sono personalizzati su misura per il riconoscimento delle parole comuni in ambito medico, come diagnosi, farmaci, sintomi, trattamenti e condizioni. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.

Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:

  • medical_conversation: per conversazioni tra un medico, ad esempio un medico o un infermiere, e un paziente. Usa questo modello quando parlano sia un medico che un paziente. Le parole enunciate da ciascun oratore vengono automaticamente rilevate ed etichettate nella trascrizione restituita.
  • medical_dictation: per le note dettate pronunciate da un singolo medico, ad esempio un medico che detta le note sui risultati degli esami del sangue di un paziente.

Utilizza solo modelli medici con le seguenti funzionalità di Speech-to-Text. Le caratteristiche omesse in questo elenco non possono essere utilizzate con nessuno dei modelli medici.

Il modello di conversazione medica supporta le seguenti funzionalità:

e richiede l'abilitazione delle seguenti funzionalità:

Il modello di dettatura medica supporta le seguenti funzionalità:

e richiede l'abilitazione delle seguenti funzionalità:

Invio di una richiesta di trascrizione

REST

Il seguente esempio di codice utilizza il modello medical_conversation per trascrivere un file audio in un bucket Cloud Storage pubblico.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per en-US.
  • ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzi il campione audio pubblico, la codifica è LINEAR16.
  • PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON della richiesta:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura pronunciata

Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questa funzionalità è sempre attiva. La punteggiatura pronunciata è delimitata tra parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe avere il seguente aspetto:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura vocale:

  • Punto
  • Virgola
  • Due punti
  • maiuscole
  • Barra
  • trattino
  • Trattino
  • punto interrogativo
  • Punto e virgola
  • virgoletta
  • rimuovere la citazione
  • virgoletta finale
  • parentesi aperta
  • parentesi chiusa
  • parentesi finale

Comandi di formattazione

Il modello di dettatura medica supporta i comandi vocali per formattare le note. Questa funzionalità è sempre attiva. I comandi vocali saranno definiti tra parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe avere il seguente aspetto:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

  • punto successivo
  • numero successivo
  • paragrafo successivo
  • maiuscole
  • lettere maiuscole
  • nuova riga
  • elemento successivo
  • problema successivo
  • numero del problema successivo
  • riga successiva
  • sezione successiva
  • numero successivo
  • graffio
  • gratta
  • termina la dettatura

Intestazioni vocali

Il modello di dettatura medica supporta le voci pronunciate per le note dettate. Questa funzionalità è attiva per impostazione predefinita e non può essere disattivata. Le intestazioni verranno delimitate tra parentesi nella trascrizione e saranno in maiuscolo. Ad esempio, la trascrizione restituita potrebbe avere un aspetto simile al seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni pronunciate:

  • RECLAMO PRINCIPALE
  • MEDICAZIONI ATTUALI
  • MEDICAZIONI DI SCARICO
  • PIANO DI DISCARICA
  • CRONOLOGIA DI FAMIGLIA
  • RISULTATI
  • REVISIONE DEI SISTEMI
  • CRONOLOGIA DELLA MALATTIA ATTUALE
  • INDICAZIONI
  • LABORATORI
  • CRONOLOGIA CHIRURGICA PASSATA
  • ESAME FISICO
  • REVISIONE DEI SISTEMI
  • RADIOLOGIA