Introdução aos modelos mais recentes

As tags de modelo "mais recentes" na API Speech-to-Text dão acesso a duas novas tags de modelo que podem ser usadas ao especificar o campo de modelo. Esses modelos foram projetados para oferecer acesso à tecnologia de fala mais recente e à pesquisa de machine learning do Google. Eles podem fornecer maior precisão no reconhecimento de fala do que outros modelos disponíveis. No entanto, alguns recursos que são compatíveis com outros modelos disponíveis ainda não são compatíveis com os modelos "mais recentes".

Os modelos mais recentes são baseados na tecnologia de Modelo de fala de conformidade do Google. Para saber mais, consulte Publicação de pesquisas do Google.

O uso dos modelos mais recentes requer uma compreensão geral do uso da API Speech-to-Text ou da IU. Consulte nossos Guias de início rápido se esta for a primeira vez que você o usa.

Identificadores de modelo

Os modelos mais recentes estão disponíveis em duas versões diferentes:

O modelo latest_short é destinado a enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere o uso de latest_short em vez do modelo command_and_search.
O modelo latest_long é destinado a qualquer tipo de conteúdo de formato longo, como mídia ou fala e conversas espontâneas. Considere usar latest_long em vez de video, especialmente se video não estiver disponível no idioma de destino. Também é possível usar latest_long no lugar do modelo default.

Tecnologia do modelo

O objetivo dos modelos mais recentes é levar o que há de mais recente em tecnologia de fala diretamente para os usuários do Google Cloud. Nossos modelos mais recentes são baseados na tecnologia de Modelo de fala de conformidade do Google, mas isso pode mudar no futuro. Para saber mais, confira a lista de publicações do Google Research.

Preços

Os modelos latest_long e latest_short são cobrados como "Padrão" e estão sujeitos ao mesmo uso e aos mesmos custos que os modelos command_and_search ou default. Para mais informações, consulte Preços.

Atualizações do modelo

Os modelos mais recentes se baseiam na tecnologia de machine learning que está progredindo rapidamente. Por esse motivo, podemos fazer atualizações de modelo com mais frequência do que em outros modelos. Essas atualizações podem adicionar outros recursos ou fazer pequenas mudanças na precisão ou latência.

Linguagens

Os modelos mais recentes estão disponíveis em mais de 20 idiomas e em mais de 50 variantes. Estamos sempre adicionando idiomas. Consulte a seção Idiomas para ver a lista mais atualizada.

Suporte e limitações dos recursos

O suporte aos recursos varia de acordo com o idioma. Consulte Idiomas para conferir uma lista completa de recursos com suporte.

No momento, os modelos mais recentes não dão suporte aos seguintes recursos:

Pontuações de confiança: a API retorna um valor específico, mas não é uma pontuação de confiança.

Contrato de nível de serviço do modelo

Os modelos mais recentes são considerados parte geral da API Speech-to-Text. Portanto, a funcionalidade compatível está disponível na API v1 e está qualificada para o mesmo contrato de nível de serviço e outras proteções oferecidas para produtos e recursos com disponibilidade geral.