Melhore a precisão dos resultados de transcrição que recebe da Speech-to-Text usando a adaptação de fala. O recurso de adaptação do modelo permite especificar palavras e/ou frases que o Speech-to-Text precisa reconhecer com mais frequência nos seus dados de áudio do que outras alternativas que podem ser sugeridas. A adaptação de modelos é especialmente útil para melhorar a acurácia da transcrição nos seguintes casos de uso:
- Seu áudio contém palavras ou frases que provavelmente ocorrerão com frequência.
- É provável que seu áudio contenha palavras raras (como nomes próprios) ou palavras que não existem para uso geral.
- Seu áudio contém ruído ou não é muito claro.
Para mais informações sobre como usar esse recurso, consulte Melhorar resultados de transcrição com adaptação do modelo. Para informações sobre limites de frases e caracteres por solicitação de adaptação de modelo, consulte Cotas e limites. Nem todos os modelos são compatíveis com a adaptação de fala. Consulte Suporte a idiomas para ver quais modelos são compatíveis com a adaptação.
Exemplo de código
A Adaptação de fala é um dos muitos recursos opcionais do Speech-to-Text que
podem ser usados para personalizar os resultados da transcrição de acordo com suas necessidades.
Consulte a documentação RecognitionConfig
para mais informações sobre como configurar o corpo da solicitação
de reconhecimento.
A amostra de código a seguir demonstra como melhorar a acurácia da transcrição usando um
recurso
SpeechAdaptation:
PhraseSet
,
CustomClass
e otimização de adaptação de modelos.
Para usar um PhraseSet
ou um CustomClass
em solicitações futuras, anote
o recurso name
, retornado na resposta ao criar o recurso.
Para ver uma lista das classes pré-criadas disponíveis para sua linguagem, consulte Tokens de classe suportados.
Python