Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici, oltre agli altri modelli di riconoscimento vocale standard e avanzati. I modelli medici sono personalizzati specificamente per il riconoscimento di parole comuni in ambito medico, come diagnosi, farmaci, sintomi, cure e patologie. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.

Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:

  • medical_conversation: per conversazioni tra un medico ad esempio un medico o un infermiere, e un paziente. Utilizza questo modello quando parlano sia un fornitore che un paziente. Parole pronunciate da ogni persona che parla vengono rilevate automaticamente ed etichettate nel trascrizione restituita.
  • medical_dictation: per le note dettate da un singolo fornitore di servizi medici, ad esempio un medico che detta note sui risultati degli esami del sangue di un paziente.

Usa solo modelli medici con le seguenti funzionalità di Speech-to-Text. Le funzionalità ommesse da questo elenco non possono essere utilizzate con nessuno dei due modelli medici.

Il modello di conversazione sanitaria supporta le seguenti funzionalità:

e richiede l'attivazione delle seguenti funzionalità:

Il modello di trascrizione medica supporta le seguenti funzionalità:

e richiede l'abilitazione delle seguenti funzionalità:

Invio di una richiesta di trascrizione

REST

Il seguente codice di esempio utilizza il modello medical_conversation per trascrivere un file audio in un bucket pubblico di Cloud Storage.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LANGUAGE_CODE: il codice BCP-47 della lingua parlata nell'audio graffetta. I modelli medici sono disponibili solo per l'inglese (Stati Uniti).
  • ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzano campione audio pubblico, la codifica è LINEAR16.
  • PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON della richiesta:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura del parlato

Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questo sia sempre attiva. La punteggiatura del parlato è delimitata da parentesi nella trascrizione vocale. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura vocale:

  • Punto
  • Virgola
  • Due punti
  • maiuscole
  • Barra
  • trattino
  • Trattino
  • punto interrogativo
  • Punto e virgola
  • virgoletta
  • rimuovere la citazione
  • virgoletta finale
  • parentesi aperta
  • parentesi chiusa
  • parentesi chiusa

Comandi di formattazione

Il modello di dettatura medica supporta i comandi vocali per formattare le note. Questo sia sempre attiva. I comandi vocali essere delineata tra parentesi nella trascrizione del parlato. Ad esempio, la trascrizione restituita potrebbe avere il seguente aspetto:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

  • punto successivo
  • numero successivo
  • paragrafo successivo
  • caps
  • lettere maiuscole
  • nuova riga
  • elemento successivo
  • problema successivo
  • numero del problema successivo
  • riga successiva
  • sezione successiva
  • numero successivo
  • scratch
  • cancella
  • fine dettatura

Intestazioni vocali

Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attiva per impostazione predefinita e non può essere disattivata. Le intestazioni saranno sono evidenziate tra parentesi nella trascrizione e saranno in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni pronunciate:

  • RECLAMO PRINCIPALE
  • FARMACI ATTUALI
  • MEDICAZIONI DI SCARICO
  • PIANO DI DISCARICA
  • STORIA FAMILIARE
  • RISULTATI
  • REVISIONE DEI SISTEMI
  • ANAMNESI DELLA MALATTIA ATTUALE
  • INDICAZIONI
  • LABORATORI
  • CRONOLOGIA CHIRURGICA PASSATA
  • ESAME FISICO
  • REVISIONE DEI SISTEMI
  • RADIOLOGIA