Medir e melhorar a precisão da fala

Visão geral

O Reconhecimento automático de fala (ASR, na sigla em inglês), também conhecido como transcrição automática ou conversão de voz em texto (STT, na sigla em inglês), usa o aprendizado de máquina para transformar áudio que contém fala em texto. O ASR tem muitos aplicativos, como legenda, assistentes virtuais, respostas interativas de voz (URAs), ditado e muito mais. No entanto, os sistemas de aprendizado de máquina raramente são 100% precisos, e a ASR não é exceção. Se você planeja usar ASR para sistemas críticos, é muito importante medir a precisão ou qualidade geral para entender o desempenho dessa integração no sistema mais amplo.

Depois de medir a precisão, é possível ajustar os sistemas para fornecer um nível de precisão ainda maior para sua situação específica. Na API Cloud Speech-to-Text do Google, o ajuste de precisão pode ser feito escolhendo o modelo de reconhecimento mais apropriado e usando nossa API Speech Adaptation. Oferecemos uma ampla variedade de modelos adaptados a diferentes casos de uso, como áudio de longa duração, conversas médicas ou por telefone.

Como definir a precisão da fala

A precisão da fala pode ser medida de várias maneiras. Pode ser útil usar várias métricas, dependendo das suas necessidades. No entanto, o método padrão do setor para comparação é a Taxa de erros de palavras (WER, na sigla em inglês), geralmente abreviada. O WER mede a porcentagem de transcrições incorretas de palavras em todo o conjunto. Uma WER menor significa que o sistema está mais preciso.

Você também pode ver o termo informações empíricas, usado no contexto de precisão de ASR. Informações empíricas são transcrições 100% precisas, geralmente fornecidas por humanos, que você usa para comparar e medir a precisão.

Taxa de erro de palavras (WER)

O WER é a combinação de três tipos de erros de transcrição que podem ocorrer:

  • Erro de inserção (I): palavras presentes na transcrição da hipótese que não estão presentes na verdade.
  • Erros de substituição (S): palavras que estão presentes na hipótese e na verdade, mas não foram transcritas corretamente.
  • Erros de exclusão (D): palavras que estão faltando na hipótese, mas presentes na verdade.

\[WER = {S+R+Q \over N}\]

Para encontrar o WER, adicione o número total de cada um desses erros e divida pelo número total de palavras (N) na transcrição de informações empíricas. O WER pode ser maior que 100% em situações com precisão muito baixa, por exemplo, quando uma grande quantidade de texto novo é inserida. Observação: a substituição é basicamente a exclusão seguida pela inserção, e algumas substituições são menos graves que outras. Por exemplo, pode haver uma diferença na substituição de uma única letra por uma palavra.

Relação do WER com uma pontuação de confiança

A métrica do WER é independente de uma pontuação de confiança e geralmente não está correlacionada. Uma pontuação de confiança se baseia na probabilidade, enquanto o WER se baseia na identificação correta da palavra. Se a palavra não for identificada corretamente, isso significa que até mesmo erros gramaticais menores podem gerar uma WER alta. Uma palavra identificada corretamente resulta em uma baixa WER, o que ainda pode resultar em uma baixa probabilidade, o que gera uma confiança baixa caso a palavra não seja tão frequente ou o áudio esteja muito barulhento.

Da mesma forma, uma palavra usada com frequência pode ter uma probabilidade alta de ser transcrita pelo ASR corretamente, o que aumenta a pontuação de confiança. Por exemplo, quando uma diferença é identificada entre "I" e "eye", uma alta confiança pode ocorrer, já que "I" é uma palavra mais conhecida, mas a métrica WER é reduzida por ela.

Em resumo, as métricas de confiança e WER são independentes e não devem se correlacionar.

Normalização

Ao calcular a métrica do WER, a transcrição automática é comparada a uma transcrição de informações empíricas fornecida por humanos. O texto das duas transcrições é normalizado antes da comparação. A pontuação é removida e as letras maiúsculas são ignoradas ao comparar a transcrição automática com a da verdade fornecida por humanos.

Convenções de informações empíricas

É importante reconhecer que não há um formato único de transcrição para qualquer áudio. Há muitos aspectos a serem considerados. Por exemplo, o áudio pode ter outras vocalizações não verbais, como "huh", "yep", "umm". Alguns modelos de STT do Cloud, como "medical_Conversation", incluem essas vocalizações, enquanto outros não. Portanto, é importante que as convenções de informações empíricas correspondam às convenções do modelo que está sendo avaliado. As diretrizes de alto nível a seguir são usadas para preparar uma transcrição de texto de verdade para um determinado áudio.

  • Além das letras padrão, é possível usar os dígitos de 0 a 9.
  • Não use símbolos como "@", "#", "$" e ".". Use palavras como "em", "hash", "dólar", "ponto".
  • Use "%", mas apenas quando precedido por um número. Caso contrário, use a palavra "porcentagem".
  • Use "\$" somente se for seguido por um número, como "Milk is \$3.99".

  • Use palavras para números inferiores a 10.

    • Por exemplo, "Eu tenho quatro gatos e 12 chapéus".
  • Use números para medidas, moeda e grandes fatores como milhões, bilhões ou trilhões. Por exemplo, "7,5 milhões" em vez de "sete e meio milhão".

  • Não use abreviações nos seguintes casos:

    O que fazer O que não fazer
    Guerreiros contra Lakers Guerreiros contra Lakers
    Moro na Main Street, 123. Moro na 123 Main St

Medir a precisão da fala

Siga estas etapas para determinar a acurácia usando o áudio:

Coletar arquivos de áudio de teste

Coletar uma amostra representativa de arquivos de áudio para medir a qualidade deles. Esta amostra deve ser aleatória e estar o mais próximo possível do ambiente de destino. Por exemplo, se você quiser transcrever conversas de um call center para ajudar a garantir a qualidade, selecione aleatoriamente algumas chamadas reais gravadas no mesmo equipamento pelo qual o áudio da produção vem. Se o áudio for gravado no microfone do smartphone ou computador e não representar seu caso de uso, não use o áudio gravado.

Grave pelo menos 30 minutos de áudio para receber uma métrica de precisão estatisticamente significativa. Recomendamos usar entre 30 minutos e 3 horas de áudio. Neste laboratório, o áudio é fornecido para você.

Receber transcrições de informações empíricas

Receba transcrições precisas do áudio. Isso geralmente envolve uma transcrição humana simples ou dupla do áudio de destino. Seu objetivo é ter uma transcrição 100% precisa para medir os resultados automatizados.

É importante receber transcrições de informações empíricas de acordo com as convenções de transcrição do seu sistema de ASR desejado. Por exemplo, verifique se a pontuação, os números e as letras maiúsculas são consistentes.

Receba uma transcrição de máquina e corrija todos os problemas no texto.

Receber a transcrição da máquina

Envie o áudio para a API Google Speech-to-Text e receba a transcrição de sua hipótese usando a interface da Speech-to-Text.

Parear informações empíricas com o áudio

Na ferramenta de interface, clique em "Anexar informações empíricas" para associar um determinado arquivo de áudio às informações empíricas fornecidas. Depois de concluir o anexo, você vai ver a métrica do WER e a visualização de todas as diferenças.