Reconhecer fala usando modelos médicos

A Speech-to-Text oferece dois modelos médicos, além dos outros modelos padrão e aprimorados de reconhecimento de fala. Os modelos médicos são adaptados especificamente para o reconhecimento de palavras comuns em cenários médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Esses modelos melhoram a transcrição de áudios que tenham esse tipo de dados.

Há dois modelos médicos, cada um personalizado para casos de uso específicos:

medical_conversation: para conversas entre um paciente e um prestador de serviços médicos, como um médico ou enfermeiro. Use esse modelo ao lidar com conversas desse tipo. As palavras faladas por cada pessoa são detectadas e rotuladas automaticamente na transcrição retornada.
medical_dictation: para anotações ditadas por um único servidor de serviços médicos, como um médico fazendo observações sobre os resultados do exame de sangue de um paciente.

Use os modelos médicos apenas com os recursos abaixo da Speech-to-Text. Os recursos omitidos nesta lista não podem ser usados com os modelos médicos.

O modelo de conversa médica tem disponibilidade para os seguintes recursos:

Ele também exige que os recursos abaixo estejam ativados:

Pontuação automática

O modelo de ditado médico aceita os atributos abaixo:

Ele também exige que os recursos abaixo estejam ativados:

Enviar uma solicitação de transcrição

REST

O exemplo de código a seguir usa o modelo medical_conversation para transcrever um arquivo de áudio em um bucket público do Cloud Storage.

Antes de usar os dados da solicitação, faça as seguintes substituições:

LANGUAGE_CODE: o código BCP-47 do idioma falado no clipe de áudio. Os modelos médicos só estão disponíveis para en-US.
ENCODING: a codificação do áudio que você quer transcrever. Se você estiver usando o exemplo de áudio público, a codificação será LINEAR16.
PROJECT_ID: o ID alfanumérico do projeto do Google Cloud .

Método HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON da solicitação:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Para enviar a solicitação, expanda uma destas opções:

curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login ou usando o Cloud Shell, que faz login automaticamente na CLIgcloud . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a esta:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Pontuação falada

O modelo de ditado médico aceita a pontuação falada para observações médicas. Esse recurso está sempre ativo. A pontuação falada é delineada por colchetes na transcrição de fala. Por exemplo, a transcrição retornada pode ser semelhante a esta:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

A Speech-to-Text tem disponibilidade para a seguinte pontuação falada:

ponto final
vírgula
dois-pontos
Caps Lock
barra
traço
hífen
ponto de interrogação
ponto e vírgula
aspas de abertura
aspas de fechamento
aspas de encerramento
parêntese de abertura
parêntese de fechamento
parêntese de encerramento

Comandos de formatação

O modelo de ditado médico aceita comandos falados para observações de formatação. Esse recurso está sempre ativo. Os comandos falados vão ser delineados por colchetes na transcrição da fala. Por exemplo, a transcrição retornada pode ser semelhante a esta:

[next line] Patient says they are experiencing fever [next point].

A Speech-to-Text aceita os seguintes comandos falados:

próximo ponto
próximo número
próximo parágrafo
Caps Lock
letras maiúsculas
nova linha
próximo item
próximo problema
próximo número de problema
próxima linha
próxima seção
próximo número
corrigir
corrigir isso
fim do ditado

Títulos falados

O modelo de ditado médico aceita títulos falados em observações ditadas. Esse recurso é ativado por padrão e não pode ser desativado. Os títulos vão ser delineados por colchetes e ficar em letras maiúsculas na transcrição. Por exemplo, a transcrição retornada pode ser semelhante a esta:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

A Speech-to-Text aceita os seguintes títulos falados:

QUEIXA PRINCIPAL
MEDICAÇÕES ATUAIS
MEDICAÇÕES DE ALTA
PLANO DE ALTA
HISTÓRICO FAMILIAR
DESCOBERTAS
ANÁLISE DE SISTEMAS
HISTÓRICO DE DOENÇA ATUAL
INDICAÇÕES
LABORATÓRIOS
HISTÓRICO CIRÚRGICO ANTERIOR
EXAME FÍSICO
ANÁLISE DE SISTEMAS
RADIOLOGIA

Reconhecer fala usando modelos médicos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Enviar uma solicitação de transcrição

REST

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

Pontuação falada

Comandos de formatação

Títulos falados

Reconhecer fala usando modelos médicos