Modelos de conformidade (longos e curtos)

As tags de modelo "mais recentes" na API Speech-to-Text dão acesso a duas novas tags de modelo que podem ser usadas ao especificar o campo de modelo. Esses modelos foram projetados para oferecer acesso à tecnologia de fala mais recente e à pesquisa de machine learning do Google. Eles podem fornecer maior precisão no reconhecimento de fala do que outros modelos disponíveis. No entanto, alguns recursos que são compatíveis com outros modelos disponíveis ainda não são compatíveis com os modelos "mais recentes".

Os modelos mais recentes são baseados na tecnologia de Modelo de fala de conformidade do Google. Para saber mais, consulte Publicação de pesquisas do Google.

O uso dos modelos mais recentes requer uma compreensão geral do uso da API Speech-to-Text ou da IU. Consulte nossos Guias de início rápido se esta for a primeira vez que você o usa.

Identificadores de modelo

Os modelos mais recentes estão disponíveis em duas versões diferentes:

O modelo latest_short é destinado a enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Quando você usa esse modelo, o serviço interrompe a transcrição de áudio depois que a primeira expressão é detectada e concluída.

Este modelo não oferece suporte ao reconhecimento separado por canal. Embora o áudio multicanal seja aceito, somente o primeiro canal será processado e transcrito.
O modelo latest_long é destinado a qualquer tipo de conteúdo de formato longo, como mídia ou fala e conversas espontâneas.

Tecnologia do modelo

O objetivo dos modelos mais recentes é levar o que há de mais recente em tecnologia de fala diretamente para os usuários do Google Cloud. Nossos modelos mais recentes são baseados na tecnologia de Modelo de fala de conformidade do Google, mas isso pode mudar no futuro. Para saber mais, confira a lista de publicações do Google Research.

Preços

Os modelos latest_long e latest_short são faturados como "Padrão". Para saber mais informações, consulte Preços.

Atualizações do modelo

Os modelos mais recentes se baseiam na tecnologia de machine learning que está progredindo rapidamente. Por esse motivo, podemos fazer atualizações de modelo com mais frequência do que em outros modelos. Essas atualizações podem adicionar outros recursos ou fazer pequenas mudanças na precisão ou latência.

Linguagens

Os modelos mais recentes estão disponíveis em mais de 20 idiomas e em mais de 50 variantes. Estamos sempre adicionando idiomas. Consulte a seção Idiomas para ver a lista mais atualizada.

Suporte e limitações dos recursos

O suporte aos recursos varia de acordo com o idioma. Consulte Idiomas para ver uma lista completa de recursos compatíveis.

No momento, os modelos mais recentes não são compatíveis com os seguintes recursos:

Pontuações de confiança: a API retorna um valor específico, mas não é uma pontuação de confiança.
Diarização: nenhum dos modelos mais recentes é compatível com a diarização.