Introdução aos modelos mais recentes

As tags de modelo "mais recentes" na API Speech-to-Text dão acesso a duas novas tags de modelo que podem ser usadas ao especificar o campo de modelo. Esses modelos foram projetados para oferecer acesso à tecnologia de fala mais recente e à pesquisa de machine learning do Google. Eles podem fornecer maior acurácia no reconhecimento de fala do que outros modelos disponíveis. No entanto, alguns recursos que são compatíveis com outros modelos disponíveis ainda não são compatíveis com os modelos "mais recentes".

Os modelos mais recentes são baseados na tecnologia de Modelo de Fala do Conformer do Google. Para saber mais, consulte Publicação do Google Research.

O uso dos modelos mais recentes exige uma compreensão geral do uso da API ou da IU do Speech-to-Text. Consulte nossos Guias de início rápido se esta for a primeira vez que você o usa.

Identificadores de modelo

Os modelos mais recentes estão disponíveis em duas versões diferentes:

O modelo latest_short é destinado a enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere o uso de latest_short em vez do modelo command_and_search.
O modelo latest_long é destinado a qualquer tipo de conteúdo de formato longo, como mídia ou fala e conversas espontâneas. Considere a possibilidade de usar latest_long em vez de video, especialmente se video não estiver disponível no idioma-alvo. Também é possível usar latest_long no lugar do modelo default.

Tecnologia do modelo

O objetivo dos modelos mais recentes é levar o que há de mais recente em tecnologia de fala diretamente para os usuários do Google Cloud. Nossos modelos mais recentes são baseados na tecnologia de Modelo de Fala do Conformer do Google, mas isso pode mudar no futuro. Para saber mais, confira a lista de publicações do Google Research.

Preços

Os modelos latest_long e latest_short são cobrados como "Padrão" e estão sujeitos ao mesmo uso e aos mesmos custos que os modelos command_and_search ou default. Para mais informações, consulte Preços.

Atualizações do modelo

Os modelos mais recentes se baseiam na tecnologia de machine learning que está evoluindo rapidamente. Por esse motivo, podemos fazer atualizações de modelo com mais frequência do que em outros modelos. Essas atualizações podem adicionar outros recursos ou fazer pequenas mudanças na acurácia ou latência.

Idiomas

Os modelos mais recentes estão disponíveis em mais de 20 idiomas e em mais de 50 variantes. Estamos sempre adicionando idiomas. Consulte a seção Idiomas para ver a lista mais atualizada.

Suporte e limitações dos recursos

O suporte aos recursos varia de acordo com o idioma. Consulte Idiomas para conferir uma lista completa de recursos com suporte.

No momento, os modelos mais recentes não dão suporte aos seguintes recursos:

Pontuações de confiança: a API retorna um valor específico, mas não é realmente uma pontuação de confiança.

Contrato de nível de serviço do modelo

Os modelos mais recentes são considerados parte da disponibilidade geral da API Speech-to-Text. Portanto, a funcionalidade compatível está disponível na API v1 e está qualificada para o mesmo contrato de nível de serviço e outras proteções oferecidas para produtos e recursos com disponibilidade geral.

Introdução aos modelos mais recentes Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.