Neste guia de início rápido, saiba como medir e melhorar a precisão da Speech-to-Text do Google Cloud para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a precisão da transcrição. Saiba como usar a interface da Speech-to-Text no Console do Google Cloud e um arquivo de informações empíricas para medir a precisão e receber insights sobre o sistema da Speech-to-Text.
Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas de Speech-to-Text, não são exceção. A medição precisa está fortemente acoplada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Como resultado, uma pontuação de precisão única para todos os clientes e casos de uso é impraticável. Para garantir o desempenho confiável dos sistemas ASR em desempenho crítico dos sistemas voltados à produção. Também é essencial entender o desempenho da Speech-to-Text no contexto mais amplo do sistema.
Para este guia de início rápido, use o método padrão do setor para comparação, a taxa de erros do Word (WER, na sigla em inglês), muitas vezes abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte Medir e melhorar a precisão da fala. Vamos começar.
Introdução ao Console Speech-to-Text
Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto. 1. Acesse "Speech" no Console do Google Cloud e navegue até a interface da Speech-to-Text. 2. Usando um arquivo de áudio que represente seu caso de uso e como você pretende usar o sistema ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando a Speech-to-Text.
Como calcular a precisão da transcrição
- Depois de transcrever o arquivo de áudio, use a seção
Transcription Accuracy
. Esta seção permanece vazia até que a precisão seja calculada para sua transcrição. - Usando o botão Fazer upload de informações empíricas na parte superior da seção, você pode começar a calcular a precisão.
Como especificar informações empíricas
- Para calcular a precisão da transcrição, forneça um arquivo de informações empíricas. Este é um arquivo
.txt
ou.csv
, normalmente um arquivo de transcrição gerado pelo usuário que contém as transcrições corretas ou esperadas para comparação. - Use
gs://cloud-samples-data/speech/brooklyn_bridge.wav
como exemplo. O arquivo de informações empíricas contém:How old is the Brooklyn Bridge
. Se você não tiver um arquivo de informações empíricas disponível, faça o download da transcrição em um formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas. - Usando a opção Fazer upload ou um arquivo existente do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
Confirmação de informações empíricas
- Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo de informações empíricas representa corretamente as transcrições, já que isso afeta diretamente as métricas de precisão.
- Clique em Confirmar para continuar.
Analisar os resultados da avaliação
- Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
- Depois que a avaliação for concluída, as seguintes seções serão exibidas:
- A tabela Precisão da transcrição, as métricas de precisão e um link para o arquivo de informações empíricas usado no processo.
- O
Transcription
com uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento de métricas e destaques de precisão.
- Analise e interprete os resultados de precisão para entender o desempenho do reconhecedor de Speech-to-Text usado para identificar áreas de melhoria, já que os resultados variam de acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, você pode ver casos indicativos dos resultados de precisão, que fornecem insights valiosos para a otimização do sistema da Google Cloud Speech-to-Text.
- Um exemplo de WER de 0%:
- Um exemplo de WER de 40%:
Opcional: atualização de informações empíricas
Para testar uma verdade empírica diferente da transcrição existente, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.
Faça um teste
Se você ainda não conhece o Google Cloud, crie uma conta para avaliar o desempenho da Speech-to-Text em cenários reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
Faça um teste gratuito da Speech-to-Text