Reconhecer fala usando modelos médicos

A Speech-to-Text oferece dois modelos médicos, além dos outros modelos de reconhecimento de fala padrão e aprimorado. Os modelos médicos são adaptados especificamente para o reconhecimento de palavras comuns em cenários médicos, como diagnósticos, medicamentos, sintomas, tratamentos e condições. Se você quiser reconhecer esse tipo de dados de áudio, é possível melhorar os resultados da transcrição usando esses modelos.

Existem dois modelos médicos, cada um personalizado para casos de uso específicos:

  • medical_conversation: para conversas entre um prestador de serviços médicos, por exemplo, uma médica/enfermeira e um paciente. Use esse modelo quando ambos os profissionais e um paciente estiverem falando. As palavras faladas por cada pessoa são detectadas e rotuladas automaticamente na transcrição retornada.
  • medical_dictation: para anotações ditadas por um único servidor de serviços médicos, por exemplo, um médico fazendo observações sobre os resultados do exame de sangue de um paciente.

Use modelos médicos apenas com as seguintes características da Speech-to-Text. Os recursos omitidos nesta lista não podem ser usados com nenhum modelo médico. O recurso de pontuação automática é ativado por padrão.

O modelo de conversa médica é compatível com os seguintes recursos:

O modelo de ditado médico oferece os seguintes recursos:

Envie uma solicitação de transcrição

REST e LINHA DE CMD

O exemplo de código a seguir usa o modelo medical_conversation para transcrever um arquivo de áudio em um bucket público do Cloud Storage.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • LANGUAGE_CODE: o código BCP-47 do idioma falado no seu clipe de áudio. Os modelos médicos estão disponíveis apenas para en-US.
  • ENCODING: a codificação do áudio que você quer transcrever. Se você estiver usando a amostra de áudio público, a codificação será LINEAR16.

Método HTTP e URL:

POST https://speech.googleapis.com/v1/speech:recognize

Corpo JSON da solicitação:

{
  "config": {
    "languageCode":LANGUAGE_CODE,
    "encoding":ENCODING
    "model": medical_conversation
  },
  'audio':{
    'uri':'gs://cloud-samples-data/speech/medical_conversation_2.wav'
  }
}

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Pontuação falada

O modelo de ditado médico usa a pontuação falada para anotações médicas. Esse recurso é ativado por padrão e não pode ser desativado. A pontuação falada é delineada por colchetes na transcrição da fala. Por exemplo, sua transcrição retornada pode ser semelhante a esta:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote]

A Speech-to-Text é compatível com a seguinte pontuação falada:

  • ponto final
  • vírgula
  • dois-pontos
  • caps
  • barra
  • hífen
  • hífen
  • ponto de interrogação
  • ponto e vírgula
  • quote
  • remover a citação
  • fim da citação
  • parêntese de abertura
  • parêntese de fechamento
  • parêntese de fim

Comandos de formatação

O modelo de ditado médico oferece suporte a comandos falados para formatação de notas. Esse recurso é ativado por padrão e não pode ser desativado. Os comandos falados serão delineados por colchetes na transcrição da fala. Por exemplo, a transcrição retornada pode ser semelhante a esta:

[next line] Patient says they are experiencing fever [next point]

A Speech-to-Text é compatível com os seguintes comandos falados:

  • próximo ponto
  • próximo número
  • próximo parágrafo
  • caps
  • letras maiúsculas
  • nova linha
  • próximo item
  • próximo problema
  • próximo número de problema
  • próxima linha
  • próxima seção
  • próximo número
  • scratch
  • corrigindo
  • finalizar ditado

Cabeçalhos falados

O modelo de ditado médico aceita cabeçalhos falados de anotações ditadas. Esse recurso é ativado por padrão e não pode ser desativado. Os títulos serão delineados por colchetes na transcrição e ficarão em letra maiúscula. Por exemplo, sua transcrição retornada pode ser semelhante a esta:

[CURRENT MEDICATIONS] Patient is currently taking no medications

O Speech-to-Text é compatível com os seguintes cabeçalhos falados:

  • QUEIXA PRINCIPAL
  • MEDICAÇÕES ATUAIS
  • MEDICAÇÕES DE ALTA
  • PLANO DE ALTA
  • HISTÓRICO FAMILIAR
  • DESCOBERTAS
  • REVISÃO DE SISTEMAS
  • HISTÓRICO DE DOENÇA ATUAL
  • INDICAÇÕES
  • LABORATÓRIOS
  • HISTÓRICO CIRÚRGICO ANTERIOR
  • EXAME FÍSICO
  • REVISÃO DE SISTEMAS
  • RADIOLOGIA