Selecionar um modelo de transcrição

Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para a Speech-to-Text.

Modelos de transcrição

O Speech-to-Text detecta palavras em um clipe de áudio comparando a entrada com um dos vários modelos de aprendizado de máquina. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).

A Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.

Por exemplo, a Speech-to-Text tem um modelo de transcrição treinado para reconhecer a fala gravada pelo telefone. Quando a Speech-to-Text usa o modelo telephony para transcrever o áudio do telefone, ele produz resultados de transcrição mais precisos do que se tivesse transcrito o áudio usando os modelos latest_long ou medical_dictation, por exemplo.

Veja na tabela a seguir os modelos de transcrição disponíveis para uso com a Speech-to-Text.

Nome do modelo Descrição
long Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo em vez do modelo "video" ou "default", especialmente se eles não estiverem disponíveis no seu idioma de destino.
short Use este modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa.
telephony Use esse modelo para áudio que se originou de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados.
medical_dictation Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico que dita notas sobre os resultados de um exame de sangue de um paciente.
medical_conversation Use este modelo para conversas entre um profissional de saúde, por exemplo, um médico, enfermeiro ou um paciente. Use o modelo "medical_conversation" quando um profissional de saúde e um paciente estão falando. As palavras ditas por cada locutor são detectadas e identificadas automaticamente.
chirp Use nosso Modelo universal de fala grande (USM, na sigla em inglês) para transcrições de última geração sem streaming em diversos conteúdos linguísticos e recursos multilíngues.
chirp_telephony Modelo universal de fala grande (USM, na sigla em inglês) ajustado para áudios originados de uma chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz.
chirp_2 Use a última geração do nosso Modelo universal de fala grande (USM, na sigla em inglês) com tecnologia Gemini para transcrições e traduções sem streaming em diversos conteúdos linguísticos e recursos multilíngues.

Selecionar um modelo para a transcrição de áudio

O modelo é especificado pelo reconhecedor usado para a solicitação de reconhecimento. Chame speech/projects.locations.recognizers/create para criar um reconhecedor e use o campo model para especificar o modelo. Encontre modelos válidos para cada idioma na tabela Idiomas compatíveis.