Selecionar um modelo de transcrição

Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para o Speech-to-Text.

Modelos de transcrição

O Speech-to-Text detecta palavras em um clipe de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).

O Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.

Por exemplo, o Speech-to-Text tem um modelo de transcrição treinado para reconhecer a fala gravada pelo telefone. Quando o Speech-to-Text usa o modelo telephony_short ou telephony para transcrever o áudio do telefone, ela produz resultados de transcrição mais precisos do que se tivesse transcrito o áudio usando os modelos short ou long.

Veja na tabela a seguir os modelos de transcrição disponíveis para uso com o Speech-to-Text.

Nome do modelo	Descrição
`long`	Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo em vez do modelo "video" ou "default", especialmente se eles não estiverem disponíveis no idioma-alvo.
`short`	Use este modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa.
`telephony`	Use esse modelo para áudio que se originou de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados.
`telephony_short`	Versão dedicada do modelo "telefonia" para enunciados curtos ou mesmo de palavras únicas para áudio de chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz. Útil para enunciados curtos de apenas alguns segundos em atendimento ao cliente, teleconferências e aplicativos de quiosque automatizados.
`medical_dictation`	Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico que dita notas sobre os resultados de um exame de sangue de um paciente.
`medical_conversation`	Use este modelo para conversas entre um profissional de saúde, por exemplo, um médico, enfermeiro ou um paciente. Use o modelo "medical_conversation" quando um profissional de saúde e um paciente estiverem falando. As palavras ditas por cada locutor são detectadas e identificadas automaticamente.
`chirp_2`	Use a última geração do nosso Modelo de Fala Universal grande (USM, na sigla em inglês) com tecnologia de modelo de linguagem grande para streaming e lote, além de transcrições e traduções em diversos conteúdos linguísticos e recursos multilíngues.
`chirp_telephony`	Modelo de Fala Universal grande (USM) ajustado para áudios originados de uma chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz.
`chirp`	Use nosso Modelo de Fala Universal grande (USM) para transcrições de última geração sem streaming em diversos conteúdos linguísticos e recursos multilíngues.

Selecionar um modelo para a transcrição de áudio

O modelo é especificado pelo reconhecedor usado para a solicitação de reconhecimento. Chame speech/projects.locations.recognizers/create para criar um reconhecedor e use o campo model para especificar o modelo. Encontre modelos válidos para cada idioma na tabela Idiomas compatíveis.

Selecionar um modelo de transcrição Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos de transcrição

Selecionar um modelo para a transcrição de áudio

Selecionar um modelo de transcrição