Cloud Speech API

Conversão de voz em texto com tecnologia de aprendizado de máquina

Teste grátis Ver a documentação

Reconhecimento de fala avançado

Com a Google Cloud Speech API, os desenvolvedores convertem áudio em texto aplicando modelos de redes neurais avançados em uma API fácil de usar. A API reconhece mais de 110 idiomas e variantes para oferecer suporte à sua base de usuários global. É possível transcrever a voz de usuários por meio do microfone em um aplicativo, ativar o controle e comando de voz ou transcrever arquivos de áudio, entre muitos outros casos de uso. Reconheça o áudio enviado na solicitação e faça o armazenamento no Google Cloud Storage usando a mesma tecnologia que o Google usa nos próprios produtos.

speech-api-lead

Tecnologia de aprendizado de máquina

Aplique os algoritmos de aprendizado de redes neurais mais avançados ao áudio dos seus usuários para um reconhecimento de voz preciso. A precisão da Speech API melhora com o tempo, à medida que o Google aperfeiçoa a tecnologia interna de reconhecimento de fala usada pelos próprios produtos da marca.

Mais de 110 idiomas

A Speech API reconhece mais de 110 idiomas e variantes para oferecer suporte à sua base de usuários global. Também é possível filtrar conteúdo inadequado nos resultados de texto.

Resultados de texto em tempo real

A Speech API pode fazer streaming dos resultados de texto, retornando os resultados de reconhecimento parcial conforme ficam disponíveis. Assim, o texto reconhecido é exibido imediatamente após a fala. A Speech API também pode retornar texto reconhecido de um áudio armazenado em um arquivo.

Precisão em ambientes barulhentos

Você não precisa aplicar recursos avançados de processamento de sinal ou cancelamento de ruído antes de enviar o áudio para a Speech API. O serviço pode processar áudios barulhentos capturados em uma variedade de ambientes.

Reconhecimento de acordo com o contexto

É possível personalizar o reconhecimento de fala de acordo com o contexto, fornecendo um conjunto separado de dicas de palavras em cada chamada à API. Isso é útil especialmente para os casos de uso de controle de dispositivo/aplicativo.

Funciona com aplicativos em qualquer dispositivo

A Speech API oferece suporte a qualquer dispositivo que possa enviar uma solicitação REST ou gRPC, incluindo telefones, computadores, tablets e dispositivos com Internet das Coisas (IoT, na sigla em inglês) como, por exemplo, carros, TVs e alto-falantes.

Recursos da Speech API

Conversão de voz em texto com tecnologia de aprendizado de máquina

Reconhecimento de voz automático
O reconhecimento de voz automático (ASR, na sigla em inglês) com tecnologia de aprendizado de redes neurais avançada, como pesquisa por voz ou transcrição de fala, é utilizado para otimizar seus aplicativos.
Vocabulário global
Reconhece mais de 110 idiomas e variantes com um vocabulário extenso.
Reconhecimento por streaming
Retorna resultados de reconhecimento enquanto o usuário ainda está falando.
Dicas de palavras
É possível personalizar o reconhecimento de voz para um contexto específico fornecendo um conjunto de palavras e frases que provavelmente serão faladas. Isso é especialmente útil para a adição de nomes e palavras personalizadas ao vocabulário e em casos de uso de controle por voz.
Suporte a áudio pré-gravado ou em tempo real
A entrada de áudio pode ser capturada por um microfone do aplicativo ou enviada a partir de um arquivo de áudio pré-gravado. Há suporte para várias codificações de áudio, incluindo FLAC, AMR, PCMU e Linear-16.
Robustez de áudio
Lida com áudio barulhento de muitos ambientes sem exigir cancelamento de ruído adicional.
Filtragem de conteúdo inadequado
Filtra conteúdo inadequado em resultados de texto para alguns idiomas.
API integrada
É possível enviar arquivos de áudio na solicitação ou integrá-los com o Google Cloud Storage.

PREÇO DA CLOUD SPEECH API

Reconhecimento de fala avançado

O uso da Cloud Speech API é cobrado por cada 15 segundos de áudio processado, após os primeiros 60 minutos gratuitos. Para mais detalhes, veja o nosso guia de preços.

Uso mensal Preço por 15 segundos*
0 - 60 minutos Gratuito
61 - 1.000.000 minutos** US$ 0,006
Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados os preços na sua moeda listados na página SKUs do Cloud Platform.

* Preço para aplicativos em sistemas pessoais (por exemplo, smartphones, tablets, laptops e desktops). Entre em contato conosco para verificar os preços e solicitar aprovação para usar a Speech API em dispositivos incorporados (por exemplo, carros, TVs, eletrodomésticos ou alto-falantes).

** O uso mensal está limitado a um milhão de minutos por mês.

Monitore seus recursos de onde você estiver

Instale o app do Google Cloud Console para ajudar você a gerenciar seus projetos.