As etiquetas do modelo "mais recente" na API Speech-to-Text dão acesso a duas novas etiquetas de modelo que podem ser usadas quando especifica o campo do modelo. Estes modelos foram concebidos para lhe dar acesso à mais recente tecnologia de voz e investigação de aprendizagem automática da Google, e podem oferecer uma maior precisão para o reconhecimento de voz em comparação com outros modelos disponíveis. No entanto, algumas funcionalidades suportadas por outros modelos disponíveis ainda não são suportadas pelos modelos "mais recentes".
Os modelos mais recentes baseiam-se na tecnologia do modelo de voz Conformer da Google. Para saber mais, consulte as Publicações da Google Research.
A utilização dos modelos mais recentes requer uma compreensão geral da utilização da API ou da IU Speech-to-Text. Consulte os nossos inícios rápidos se for a primeira vez que o usa.
Identificadores do modelo
Os modelos mais recentes estão disponíveis em duas versões diferentes:
O modelo
latest_short
destina-se a expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada de disparo único. Considere usar o modelolatest_short
em vez do modelocommand_and_search
.O modelo
latest_long
destina-se a qualquer tipo de conteúdo de formato longo, como conteúdo multimédia ou conversas e discurso espontâneos. Considere usarlatest_long
em vez devideo
, especialmente sevideo
não estiver disponível no seu idioma de destino. Também pode usar o modelolatest_long
em vez do modelodefault
.
Tecnologia do modelo
O objetivo dos modelos mais recentes é disponibilizar a mais recente tecnologia de voz diretamente aos utilizadores do Google Cloud. Os nossos modelos mais recentes atuais baseiam-se na tecnologia do modelo de voz Conformer da Google, mas isto pode mudar no futuro. Para saber mais, consulte a lista de publicações da Google Research.
Preços
Os modelos latest_long
e latest_short
são faturados como "Padrão" e estão sujeitos à mesma utilização e custos que os modelos command_and_search
ou default
. Para mais informações, consulte a secção Preços.
Atualizações ao modelo
Os modelos mais recentes baseiam-se na tecnologia de aprendizagem automática em rápido avanço. Por este motivo, podemos fazer atualizações ou atualizações dos modelos com mais frequência do que nos nossos outros modelos. Estas atualizações podem adicionar funcionalidades adicionais ou fazer pequenas alterações à precisão ou à latência.
Idiomas
Os modelos mais recentes estão disponíveis em mais de 20 idiomas e mais de 50 variantes. Estamos sempre a adicionar idiomas. Consulte a secção Idiomas para ver a lista mais atualizada.
Suporte de funcionalidades e limitações
O suporte de funcionalidades varia consoante o idioma. Consulte Idiomas para ver uma lista completa das funcionalidades suportadas.
Atualmente, os modelos mais recentes não suportam a seguinte funcionalidade:
- Pontuações de confiança: a API devolve um valor, mas não é verdadeiramente uma pontuação de confiança.
Contrato de nível de serviço modelo
Os modelos mais recentes são considerados uma parte geralmente disponível da API Speech-to-Text. Como tal, a funcionalidade que suportam está disponível na API v1 e é elegível para o mesmo contrato de nível de serviço e outras proteções concedidas a produtos e funcionalidades geralmente disponíveis.