Medir e melhorar a acurácia

Neste guia de início rápido, saiba como medir e melhorar a acurácia da Google Cloud Cloud Speech-to-Text para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a acurácia da transcrição. Saiba como usar a interface da Cloud Speech-to-Text no console do Google Cloud e um arquivo de informações empíricas para medir a acurácia e receber insights sobre o sistema dessa API.

Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas da Cloud Speech-to-Text, não são exceção. A medição precisa da acurácia está intimamente relacionada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetá-la significativamente. Como resultado, uma pontuação de acurácia única para todos os clientes e casos de uso é impraticável. É importante garantir o desempenho confiável dos sistemas de ASR em sistemas críticos voltados à produção. Também é essencial entender o desempenho da Cloud Speech-to-Text no contexto mais amplo do sistema.

Para este guia de início rápido, use o método padrão do setor para comparação, ou seja, a taxa de erros de palavras, muitas vezes abreviada para a sigla em inglês WER. Para saber como a WER é calculada e interpretada, consulte Medir e melhorar a acurácia da fala.

Começar a usar o console do Google Cloud

Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto.

  1. Acesse Speech no console do Google Cloud e navegue até a interface da Cloud Speech-to-Text.
  2. Usando um arquivo de áudio que represente acusticamente seu caso de uso e como você pretende usar o sistema de ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando a Cloud Speech-to-Text.

Como calcular a acurácia da transcrição

  1. Depois de transcrever o arquivo de áudio, confira a seção Acurácia da transcrição. Essa seção permanece vazia até que a acurácia seja calculada para a transcrição.
  2. Usando o botão Fazer upload de informações empíricas na parte superior da seção, você pode começar a calcular a acurácia.
Página de detalhes da transcrição da Cloud Speech-to-Text, destacando a seção de acurácia da transcrição e o botão de upload de informações empíricas.
Página de detalhes da transcrição da Cloud Speech-to-Text, destacando a seção de acurácia da transcrição e o botão de upload de informações empíricas.

Como especificar informações empíricas

  1. Para calcular a acurácia da transcrição, forneça um arquivo de informações empíricas. Esse arquivo é um TXT ou CSV e geralmente consiste em um arquivo de transcrição gerado por pessoas que contém as transcrições corretas ou esperadas para comparação.
  2. Use gs://cloud-samples-data/speech/brooklyn_bridge.wav como exemplo. O arquivo de informações empíricas contém: How old is the Brooklyn Bridge. Se você não tiver um arquivo de informações empíricas disponível, baixe a transcrição em formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas.
  3. Usando a opção Fazer upload ou um arquivo atual do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
Página de criação da transcrição da Cloud Speech-to-Text, mostrando opções para selecionar ou fazer upload de um arquivo de informações empíricas.
Página de criação da transcrição da Cloud Speech-to-Text, mostrando opções para selecionar ou fazer upload de um arquivo de informações empíricas.

Como confirmar as informações empíricas

  1. Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo representa corretamente as transcrições, já que isso afeta diretamente as métricas de acurácia.
  2. Clique em Confirmar para continuar.
Página de transcrição da Cloud Speech-to-Text, mostrando o conteúdo do arquivo de informações empíricas enviado.
Página de transcrição da Cloud Speech-to-Text, mostrando o conteúdo do arquivo de informações empíricas enviado.

Analisar os resultados da avaliação

  1. Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
  2. Depois que a avaliação for concluída, as seguintes seções serão exibidas:
    • A tabela Acurácia da transcrição, as métricas de acurácia e um link para o arquivo de informações empíricas usado no processo.
    • A Transcription com uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento dos destaques e das métricas de acurácia.
  3. Analise e interprete os resultados de acurácia para entender o desempenho do identificador da Cloud Speech-to-Text usado para identificar áreas de melhoria, já que os resultados variam de acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, confira casos indicativos dos resultados de acurácia, que fornecem insights valiosos para a otimização do sistema da Cloud Speech-to-Text.
    • Exemplo de WER de 0%:
      Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 0%.
      Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 0%.
    • Um exemplo de WER de 40%:
      Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 40%.
      Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 40%.

Opcional: como atualizar informações empíricas

Para testar informações empíricas diferentes com a transcrição atual, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.

Faça um teste

Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho da Cloud STT em situações reais. Clientes novos também recebem US$ 300 em créditos sem custos financeiros para executar, testar e implantar cargas de trabalho.

Faça uma avaliação sem custos da Cloud STT