Questa pagina è stata tradotta dall'API Cloud Translation.

Riconoscimento vocale mediante modelli medici

Speech-to-Text offre due modelli medici, oltre agli altri modelli di riconoscimento vocale standard e avanzati. I modelli medici sono specificamente pensati per il riconoscimento di parole comuni in contesti medici, come diagnosi, farmaci, sintomi, trattamenti e patologie. Se vuoi riconoscere questo tipo di dati audio, puoi migliorare i risultati della trascrizione utilizzando questi modelli.

Esistono due modelli medici, ciascuno personalizzato per casi d'uso specifici:

medical_conversation: per le conversazioni tra un fornitore di servizi medici, ad esempio un medico o un infermiere, e un paziente. Utilizza questo modello quando parlano sia un operatore sanitario che un paziente. Le parole pronunciate da ogni persona che parla vengono rilevate ed etichettate automaticamente nella trascrizione restituita.
medical_dictation: per le note dettate da un singolo operatore sanitario, ad esempio un medico che detta le note sui risultati degli esami del sangue di un paziente.

Utilizza i modelli medici solo con le seguenti funzionalità di Speech-to-Text. Le funzionalità omesse da questo elenco non possono essere utilizzate con nessuno dei due modelli medici. La funzionalità di punteggiatura automatica è abilitata per impostazione predefinita.

Il modello di conversazione medica supporta le seguenti funzionalità:

Speaker Diarization

Il modello di dettatura medica supporta le seguenti funzionalità:

Punteggiatura vocale
Comandi di formattazione
Intestazioni vocali

Invio di una richiesta di trascrizione

REST

Il seguente esempio di codice utilizza il modello medical_conversation per trascrivere un file audio in un bucket Cloud Storage pubblico.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio. I modelli medici sono disponibili solo per en-US.
ENCODING: la codifica dell'audio che vuoi trascrivere. Se utilizzi il campione audio pubblico, la codifica è LINEAR16.
PROJECT_ID: l'ID alfanumerico del tuo Google Cloud progetto.

Metodo HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON della richiesta:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Punteggiatura del parlato

Il modello di dettatura medica supporta la punteggiatura vocale per le note mediche. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. La punteggiatura del parlato è delimitata da parentesi nella trascrizione del discorso. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text supporta la seguente punteggiatura vocale:

Punto
Virgola
Due punti
cappellini
Barra
trattino
Trattino
punto interrogativo
Punto e virgola
virgoletta
unquote
virgoletta finale
parentesi aperta
parentesi chiusa
parentesi chiusa

Comandi di formattazione

Il modello di dettatura medica supporta i comandi vocali per la formattazione delle note. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. I comandi vocali saranno delimitati da parentesi nella trascrizione del discorso. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text supporta i seguenti comandi vocali:

punto successivo
numero successivo
paragrafo successivo
cappellini
maiuscole
nuova riga
elemento successivo
problema successivo
numero del problema successivo
riga successiva
sezione successiva
numero successivo
graffio
cancella
termina la dettatura

Intestazioni lette a voce

Il modello di dettatura medica supporta le intestazioni vocali per le note dettate. Questa funzionalità è attivata per impostazione predefinita e non può essere disattivata. I titoli saranno delimitati da parentesi nella trascrizione e saranno in maiuscolo. Ad esempio, la trascrizione restituita potrebbe essere simile alla seguente:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text supporta le seguenti intestazioni vocali:

CHIEF COMPLAINT
FARMACI ATTUALI
FARMACI PER LA DIMISSIONE
PIANO DI DIMISSIONE
STORIA FAMILIARE
RISULTATI
REVISIONE DEI SISTEMI
ANAMNESI PROSSIMA
INDICAZIONI
LABS
INTERVENTI CHIRURGICI PRECEDENTI
ESAME FISICO
REVISIONE DEI SISTEMI
RADIOLOGY

Riconoscimento vocale mediante modelli medici Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Invio di una richiesta di trascrizione

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Punteggiatura del parlato

Comandi di formattazione

Intestazioni lette a voce

Riconoscimento vocale mediante modelli medici