As tags de modelo "mais recentes" na API Speech-to-Text dão acesso a duas novas tags de modelo que podem ser usadas ao especificar o campo de modelo. Esses modelos foram projetados para oferecer acesso à tecnologia de fala mais recente e à pesquisa de machine learning do Google. Eles podem fornecer maior acurácia no reconhecimento de fala do que outros modelos disponíveis. No entanto, alguns recursos que são compatíveis com outros modelos disponíveis ainda não são compatíveis com os modelos "mais recentes".
Os modelos mais recentes são baseados na tecnologia de Modelo de Fala do Conformer do Google. Para saber mais, consulte Publicação do Google Research.
O uso dos modelos mais recentes exige uma compreensão geral do uso da API ou da IU do Speech-to-Text. Consulte nossos Guias de início rápido se esta for a primeira vez que você o usa.
Identificadores de modelo
Os modelos mais recentes estão disponíveis em duas versões diferentes:
O modelo
latest_short
é destinado a enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere o uso delatest_short
em vez do modelocommand_and_search
.O modelo
latest_long
é destinado a qualquer tipo de conteúdo de formato longo, como mídia ou fala e conversas espontâneas. Considere a possibilidade de usarlatest_long
em vez devideo
, especialmente sevideo
não estiver disponível no idioma-alvo. Também é possível usarlatest_long
no lugar do modelodefault
.
Tecnologia do modelo
O objetivo dos modelos mais recentes é levar o que há de mais recente em tecnologia de fala diretamente para os usuários do Google Cloud. Nossos modelos mais recentes são baseados na tecnologia de Modelo de Fala do Conformer do Google, mas isso pode mudar no futuro. Para saber mais, confira a lista de publicações do Google Research.
Preços
Os modelos latest_long
e latest_short
são cobrados como "Padrão" e
estão sujeitos ao mesmo uso e aos mesmos custos que os modelos command_and_search
ou
default
. Para mais informações, consulte Preços.
Atualizações do modelo
Os modelos mais recentes se baseiam na tecnologia de machine learning que está evoluindo rapidamente. Por esse motivo, podemos fazer atualizações de modelo com mais frequência do que em outros modelos. Essas atualizações podem adicionar outros recursos ou fazer pequenas mudanças na acurácia ou latência.
Idiomas
Os modelos mais recentes estão disponíveis em mais de 20 idiomas e em mais de 50 variantes. Estamos sempre adicionando idiomas. Consulte a seção Idiomas para ver a lista mais atualizada.
Suporte e limitações dos recursos
O suporte aos recursos varia de acordo com o idioma. Consulte Idiomas para conferir uma lista completa de recursos com suporte.
No momento, os modelos mais recentes não dão suporte aos seguintes recursos:
- Pontuações de confiança: a API retorna um valor específico, mas não é realmente uma pontuação de confiança.
Contrato de nível de serviço do modelo
Os modelos mais recentes são considerados parte da disponibilidade geral da API Speech-to-Text. Portanto, a funcionalidade compatível está disponível na API v1 e está qualificada para o mesmo contrato de nível de serviço e outras proteções oferecidas para produtos e recursos com disponibilidade geral.