Medir e melhorar a precisão

Neste guia de início rápido, saiba como medir e melhorar a precisão da Speech-to-Text do Google Cloud para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a precisão da transcrição. Saiba como usar a interface da Speech-to-Text no Console do Google Cloud e um arquivo de informações empíricas para medir a precisão e receber insights sobre o sistema da Speech-to-Text.

Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas de Speech-to-Text, não são exceção. A medição precisa está fortemente acoplada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Como resultado, uma pontuação de precisão única para todos os clientes e casos de uso é impraticável. Para garantir o desempenho confiável dos sistemas ASR em desempenho crítico dos sistemas voltados à produção. Também é essencial entender o desempenho da Speech-to-Text no contexto mais amplo do sistema.

Para este guia de início rápido, use o método padrão do setor para comparação, a taxa de erros do Word (WER, na sigla em inglês), muitas vezes abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte Medir e melhorar a precisão da fala. Vamos começar.

Introdução ao Console Speech-to-Text

Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto. 1. Acesse "Speech" no Console do Google Cloud e navegue até a interface da Speech-to-Text. 2. Usando um arquivo de áudio que represente seu caso de uso e como você pretende usar o sistema ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando a Speech-to-Text.

Como calcular a precisão da transcrição

  1. Depois de transcrever o arquivo de áudio, use a seção Transcription Accuracy. Esta seção permanece vazia até que a precisão seja calculada para sua transcrição.
  2. Usando o botão Fazer upload de informações empíricas na parte superior da seção, você pode começar a calcular a precisão.
    Captura de tela da página de detalhes da transcrição da Speech-to-Text, mostrando a seção de precisão da transcrição e o botão de upload de informações empíricas

Como especificar informações empíricas

  1. Para calcular a precisão da transcrição, forneça um arquivo de informações empíricas. Este é um arquivo .txt ou .csv, normalmente um arquivo de transcrição gerado pelo usuário que contém as transcrições corretas ou esperadas para comparação.
  2. Use gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O arquivo de informações empíricas contém: How old is the Brooklyn Bridge. Se você não tiver um arquivo de informações empíricas disponível, faça o download da transcrição em um formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas.
  3. Usando a opção Fazer upload ou um arquivo existente do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
    Captura de tela da página de criação da transcrição da Speech-to-Text, mostrando a seleção ou o upload de um arquivo de informações empíricas.

Confirmação de informações empíricas

  1. Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo de informações empíricas representa corretamente as transcrições, já que isso afeta diretamente as métricas de precisão.
  2. Clique em Confirmar para continuar.
    Captura de tela da página de transcrição da Speech-to-Text, mostrando o conteúdo do arquivo de informações empíricas enviado.

Analisar os resultados da avaliação

  1. Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
  2. Depois que a avaliação for concluída, as seguintes seções serão exibidas:
    • A tabela Precisão da transcrição, as métricas de precisão e um link para o arquivo de informações empíricas usado no processo.
    • O Transcription com uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento de métricas e destaques de precisão.
  3. Analise e interprete os resultados de precisão para entender o desempenho do reconhecedor de Speech-to-Text usado para identificar áreas de melhoria, já que os resultados variam de acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, você pode ver casos indicativos dos resultados de precisão, que fornecem insights valiosos para a otimização do sistema da Google Cloud Speech-to-Text.
    • Um exemplo de WER de 0%:
      Captura de tela da página de precisão da transcrição da Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erro de palavras de 0%.
    • Um exemplo de WER de 40%:
      Captura de tela da página de precisão da transcrição da Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erro de palavras de 40%.

Opcional: atualização de informações empíricas

Para testar uma verdade empírica diferente da transcrição existente, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.

Faça um teste

Se você ainda não conhece o Google Cloud, crie uma conta para avaliar o desempenho da Speech-to-Text em cenários reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

Faça um teste gratuito da Speech-to-Text