Selecione um modelo de transcrição

Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.

Modelos de transcrição

A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.

A API Speech-to-Text tem modelos especializados que são preparados a partir de áudio para origens específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com base nos quais foram preparados.

A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com a API Speech-to-Text V2.

Nome do modelo Descrição
chirp_3 Use a geração mais recente dos modelos generativos específicos de reconhecimento automático de voz (RAV) multilingue da Google, concebidos para satisfazer as necessidades dos seus utilizadores com base no feedback e na experiência. O Chirp 3 oferece maior precisão e velocidade em comparação com os modelos Chirp anteriores, além de fornecer diarização e deteção automática de idioma.
chirp_2 Use a próxima geração do nosso modelo de voz universal (USM) de grande dimensão com tecnologia de modelo de linguagem (conteúdo extenso) (MDL/CE) para streaming e processamento em lote, bem como transcrições e traduções em conteúdo linguístico diversificado e capacidades multilingues.
telephony Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas.

Os seguintes modelos baseiam-se em arquiteturas anteriores, não são mantidos ativamente e são mantidos principalmente para compatibilidade com versões anteriores e sistemas antigos.

chirp Use o nosso modelo de voz (conteúdo extenso) universal (USM) para transcrições não em streaming de vanguarda em conteúdo linguístico diversificado e capacidades multilingues.
chirp_telephony Modelo de voz grande universal (USM) otimizado para áudio proveniente de uma chamada telefónica (normalmente gravado a uma taxa de amostragem de 8 kHz).
long Use este modelo para qualquer tipo de conteúdo de formato longo, como multimédia ou conversas e discurso espontâneos. Considere usar este modelo em vez do modelo video ou default, especialmente se não estiverem disponíveis no seu idioma de destino.
short Use este modelo para expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada única e curta. Considere usar este modelo em vez do modelo de comando e pesquisa.
telephony_short Versão dedicada do modelo telephony para expressões curtas ou até de uma só palavra para áudio proveniente de uma chamada telefónica, normalmente gravado a uma taxa de amostragem de 8 kHz. Útil para comandos de voz com apenas alguns segundos de duração no serviço de apoio ao cliente, teleconferências e aplicações de quiosques automatizados.
medical_conversation Use este modelo para conversas entre um prestador de serviços médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use o modelo medical_conversation quando um profissional de saúde e um paciente estiverem a falar. As palavras proferidas por cada orador são detetadas e etiquetadas automaticamente.
medical_dictation Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.

Selecione um modelo para a transcrição de áudio

O modelo é especificado pelo Recognizer usado para o pedido de reconhecimento. Chame speech/projects.locations.recognizers/create para criar um reconhecedor e use o campo model para especificar o modelo. Pode encontrar modelos válidos para cada idioma na tabela Idiomas suportados.