Neste guia de início rápido, saiba como medir e melhorar a acurácia da Google Cloud Cloud Speech-to-Text para seus dados de áudio. Explore também os diversos modelos e opções disponíveis na API para melhorar a acurácia da transcrição. Saiba como usar a interface da Cloud Speech-to-Text no console do Google Cloud e um arquivo de informações empíricas para medir a acurácia e receber insights sobre o sistema dessa API.
Os sistemas de machine learning (ML) estão inerentemente sujeitos a imprecisões, e os sistemas de reconhecimento automático de fala (ASR, na sigla em inglês), também conhecidos como sistemas da Cloud Speech-to-Text, não são exceção. A medição precisa da acurácia está intimamente relacionada a casos de uso específicos e aos sistemas que estão sendo avaliados, já que as diferenças na qualidade da gravação de áudio e nas condições acústicas podem afetá-la significativamente. Como resultado, uma pontuação de acurácia única para todos os clientes e casos de uso é impraticável. É importante garantir o desempenho confiável dos sistemas de ASR em sistemas críticos voltados à produção. Também é essencial entender o desempenho da Cloud Speech-to-Text no contexto mais amplo do sistema.
Para este guia de início rápido, use o método padrão do setor para comparação, ou seja, a taxa de erros de palavras, muitas vezes abreviada para a sigla em inglês WER. Para saber como a WER é calculada e interpretada, consulte Medir e melhorar a acurácia da fala.
Começar a usar o console do Google Cloud
Verifique se você se inscreveu em uma conta do Google Cloud e criou um projeto.
- Acesse Speech no console do Google Cloud e navegue até a interface da Cloud Speech-to-Text.
- Usando um arquivo de áudio que represente acusticamente seu caso de uso e como você pretende usar o sistema de ASR, siga as instruções do guia de início rápido para fazer sua primeira transcrição usando a Cloud Speech-to-Text.
Como calcular a acurácia da transcrição
- Depois de transcrever o arquivo de áudio, confira a seção Acurácia da transcrição. Essa seção permanece vazia até que a acurácia seja calculada para a transcrição.
- Usando o botão Fazer upload de informações empíricas na parte superior da seção, você pode começar a calcular a acurácia.
Como especificar informações empíricas
- Para calcular a acurácia da transcrição, forneça um arquivo de informações empíricas. Esse arquivo é um TXT ou CSV e geralmente consiste em um arquivo de transcrição gerado por pessoas que contém as transcrições corretas ou esperadas para comparação.
- Use
gs://cloud-samples-data/speech/brooklyn_bridge.wavcomo exemplo. O arquivo de informações empíricas contém:How old is the Brooklyn Bridge. Se você não tiver um arquivo de informações empíricas disponível, baixe a transcrição em formato de texto. Edite o arquivo de transcrição conforme necessário. Faça o upload do arquivo de transcrição como o arquivo de informações empíricas. - Usando a opção Fazer upload ou um arquivo atual do Cloud Storage, especifique o arquivo de informações empíricas e clique em Salvar.
Como confirmar as informações empíricas
- Depois que você clicar em Salvar, será exibida uma solicitação para confirmar se o arquivo de informações empíricas especificado está correto. Verifique se o arquivo representa corretamente as transcrições, já que isso afeta diretamente as métricas de acurácia.
- Clique em Confirmar para continuar.
Analisar os resultados da avaliação
- Dependendo do tamanho dos dados de entrada, o processo de avaliação pode levar algum tempo, e os resultados são exibidos após a conclusão.
- Depois que a avaliação for concluída, as seguintes seções serão exibidas:
- A tabela Acurácia da transcrição, as métricas de acurácia e um link para o arquivo de informações empíricas usado no processo.
- A
Transcriptioncom uma opção para comparar com o arquivo de informações empíricas, além de um detalhamento dos destaques e das métricas de acurácia.
- Analise e interprete os resultados de acurácia para entender o desempenho do identificador da
Cloud Speech-to-Text usado para identificar áreas
de melhoria, já que os resultados variam de
acordo com as entradas e a transcrição usadas. Nos exemplos a seguir, confira casos indicativos dos resultados de acurácia, que fornecem insights
valiosos para a otimização do sistema da
Cloud Speech-to-Text.
- Exemplo de WER de 0%:
Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 0%. - Um exemplo de WER de 40%:
Página de acurácia da transcrição da Cloud Speech-to-Text, mostrando os resultados da avaliação calculada para a transcrição fornecida com uma taxa de erros de palavras de 40%.
- Exemplo de WER de 0%:
Opcional: como atualizar informações empíricas
Para testar informações empíricas diferentes com a transcrição atual, anexe novamente um arquivo diferente e repita as etapas três e quatro com um arquivo atualizado de informações empíricas.
Faça um teste
Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho da Cloud STT em situações reais. Clientes novos também recebem US$ 300 em créditos sem custos financeiros para executar, testar e implantar cargas de trabalho.
Faça uma avaliação sem custos da Cloud STT