Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para a Speech-to-Text.
Modelos de transcrição
O Speech-to-Text detecta palavras em um clipe de áudio comparando a entrada com um dos vários modelos de aprendizado de máquina. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
A Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.
Por exemplo, a Speech-to-Text tem um modelo de transcrição treinado
para reconhecer a fala gravada pelo telefone. Quando a Speech-to-Text
usa o modelo telephony
para transcrever o áudio do telefone, ele produz resultados de transcrição
mais precisos do que se tivesse transcrito o áudio usando
os modelos latest_long
ou medical_dictation
, por exemplo.
Veja na tabela a seguir os modelos de transcrição disponíveis para uso com a Speech-to-Text.
Nome do modelo | Descrição |
---|---|
long |
Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo em vez do modelo "video" ou "default", especialmente se eles não estiverem disponíveis no seu idioma de destino. |
short |
Use este modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa. |
telephony |
Use esse modelo para áudio que se originou de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados. |
medical_dictation |
Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico que dita notas sobre os resultados de um exame de sangue de um paciente. |
medical_conversation |
Use este modelo para conversas entre um profissional de saúde, por exemplo, um médico, enfermeiro ou um paciente. Use o modelo "medical_conversation" quando um profissional de saúde e um paciente estão falando. As palavras ditas por cada locutor são detectadas e identificadas automaticamente. |
chirp |
Use nosso Modelo universal de fala grande (USM, na sigla em inglês) para transcrições de última geração sem streaming em diversos conteúdos linguísticos e recursos multilíngues. |
chirp_telephony |
Modelo universal de fala grande (USM, na sigla em inglês) ajustado para áudios originados de uma chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz. |
chirp_2 |
Use a última geração do nosso Modelo universal de fala grande (USM, na sigla em inglês) com tecnologia Gemini para transcrições e traduções sem streaming em diversos conteúdos linguísticos e recursos multilíngues. |
Selecionar um modelo para a transcrição de áudio
O modelo é especificado pelo reconhecedor
usado para a solicitação de reconhecimento. Chame speech/projects.locations.recognizers/create
para criar um reconhecedor e use o campo model
para
especificar o modelo. Encontre modelos válidos para cada idioma na tabela Idiomas compatíveis.