Introdução aos modelos mais recentes

As etiquetas do modelo "mais recente" na API Speech-to-Text dão acesso a duas novas etiquetas de modelo que podem ser usadas quando especifica o campo do modelo. Estes modelos foram concebidos para lhe dar acesso à mais recente tecnologia de voz e investigação de aprendizagem automática da Google, e podem oferecer uma maior precisão para o reconhecimento de voz em comparação com outros modelos disponíveis. No entanto, algumas funcionalidades suportadas por outros modelos disponíveis ainda não são suportadas pelos modelos "mais recentes".

Os modelos mais recentes baseiam-se na tecnologia do modelo de voz Conformer da Google. Para saber mais, consulte as Publicações da Google Research.

A utilização dos modelos mais recentes requer uma compreensão geral da utilização da API ou da IU Speech-to-Text. Consulte os nossos inícios rápidos se for a primeira vez que o usa.

Identificadores do modelo

Os modelos mais recentes estão disponíveis em duas versões diferentes:

  • O modelo latest_short destina-se a expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada de disparo único. Considere usar o modelo latest_short em vez do modelo command_and_search.

  • O modelo latest_long destina-se a qualquer tipo de conteúdo de formato longo, como conteúdo multimédia ou conversas e discurso espontâneos. Considere usar latest_long em vez de video, especialmente se video não estiver disponível no seu idioma de destino. Também pode usar o modelo latest_long em vez do modelo default.

Tecnologia do modelo

O objetivo dos modelos mais recentes é disponibilizar a mais recente tecnologia de voz diretamente aos utilizadores do Google Cloud. Os nossos modelos mais recentes atuais baseiam-se na tecnologia do modelo de voz Conformer da Google, mas isto pode mudar no futuro. Para saber mais, consulte a lista de publicações da Google Research.

Preços

Os modelos latest_long e latest_short são faturados como "Padrão" e estão sujeitos à mesma utilização e custos que os modelos command_and_search ou default. Para mais informações, consulte a secção Preços.

Atualizações ao modelo

Os modelos mais recentes baseiam-se na tecnologia de aprendizagem automática em rápido avanço. Por este motivo, podemos fazer atualizações ou atualizações dos modelos com mais frequência do que nos nossos outros modelos. Estas atualizações podem adicionar funcionalidades adicionais ou fazer pequenas alterações à precisão ou à latência.

Idiomas

Os modelos mais recentes estão disponíveis em mais de 20 idiomas e mais de 50 variantes. Estamos sempre a adicionar idiomas. Consulte a secção Idiomas para ver a lista mais atualizada.

Suporte de funcionalidades e limitações

O suporte de funcionalidades varia consoante o idioma. Consulte Idiomas para ver uma lista completa das funcionalidades suportadas.

Atualmente, os modelos mais recentes não suportam a seguinte funcionalidade:

  • Pontuações de confiança: a API devolve um valor, mas não é verdadeiramente uma pontuação de confiança.

Contrato de nível de serviço modelo

Os modelos mais recentes são considerados uma parte geralmente disponível da API Speech-to-Text. Como tal, a funcionalidade que suportam está disponível na API v1 e é elegível para o mesmo contrato de nível de serviço e outras proteções concedidas a produtos e funcionalidades geralmente disponíveis.