Use a funcionalidade de comparativo de mercado do console do Cloud Speech-to-Text para medir a acurácia de qualquer um dos modelos de transcrição usados na API Speech-to-Text V2.
O console do Cloud Speech-to-Text oferece comparativos de mercado visuais para modelos pré-treinados e personalizados da Speech-to-Text. É possível inspecionar a qualidade do reconhecimento comparando as métricas de avaliação da taxa de erros de palavras (WER) entre vários modelos de transcrição para ajudar a decidir qual modelo se adequa melhor ao seu aplicativo.
Antes de começar
Verifique se você se inscreveu em uma conta do Google Cloud, criou um projeto, treinou um modelo de fala personalizado e implantou usando um endpoint.
Criar um conjunto de dados de informações empíricas
Para criar um conjunto de dados personalizado de comparativo de mercado, reúna amostras de áudio que reflitam com acurácia o tipo de tráfego que o modelo de transcrição encontrará em um ambiente de produção. O ideal é que a duração agregada desses arquivos de áudio tenha no mínimo 30 minutos e não exceda 10 horas. Para montar o conjunto de dados, será necessário:
- Criar um diretório em um bucket do Cloud Storage de sua preferência para armazenar os arquivos de áudio e texto do conjunto de dados.
- Criar transcrições com acurácia razoável para cada arquivo de áudio no conjunto de dados. Para cada arquivo de áudio (como
example_audio_1.wav
), é necessário criar um arquivo de texto de informações empíricas correspondente (example_audio_1.txt
). Esse serviço usa esses pareamentos de áudio e texto em um bucket do Cloud Storage para montar o conjunto de dados.
Fazer um comparativo de mercado do modelo
Usando o modelo personalizado da Speech-to-Text e seu conjunto de dados de comparativo de mercado para avaliar a acurácia do modelo, siga o guia Medir e melhorar a acurácia.