Speech-to-Text
Converta voz em texto de maneira precisa usando uma API desenvolvida com as tecnologias de IA do Google.
-
Transcreva seu conteúdo de arquivos armazenados ou em tempo real
-
Proporcione uma experiência melhor aos usuários com comandos de voz
-
Receba insights das interações dos clientes para melhorar seu serviço
Vantagens
Precisão de última geração
Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google e tenha um reconhecimento de fala automático (ASR).
Alcance global
Atenda às necessidades dos seus usuários onde quer que estejam por meio do reconhecimento de fala com mais de 125 idiomas e variantes compatíveis.
Implantação flexível
Implante o reconhecimento de fala sempre que precisar, seja na nuvem com a API ou no local com o Speech-to-Text On-Prem.
Demonstração
Coloque a Speech-to-Text em ação
Como nesta demonstração, é possível integrar facilmente a transcrição de fala aos seus aplicativos com a API Speech-to-Text.
Principais recursos
Principais recursos
Adaptação de fala
Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a precisão da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.
Modelos para domínios específicos
Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
Streaming de reconhecimento de fala
Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou por meio do Cloud Storage).
Speech-to-Text On-Prem
Tenha controle total sobre sua infraestrutura e dados de fala protegidos enquanto usa a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar os primeiros passos.
Clientes
O que há de novo
O que há de novo
Inscreva-se para receber newsletters do Google Cloud com atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.
Documentação
Documentação
Princípios básicos da Speech-to-Text
Conheça os princípios básicos da Speech-to-Text.
Guia de início rápido: como usar a ferramenta gcloud
Envie uma solicitação de transcrição de áudio para o Speech-to-Text usando a ferramenta de linha de comando gcloud.
Práticas recomendadas
Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.
Idiomas compatíveis
Saiba quais idiomas estão disponíveis para a Speech-to-Text e veja os recursos e modelos de reconhecimento disponíveis para cada idioma.
Speech-to-Text On-Prem
Saiba mais sobre o Speech-to-Text On-Prem, que permite a integração facilitada da tecnologia de reconhecimento de fala do Google às suas soluções locais.
Casos de uso
Casos de uso
Melhore seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas com agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e seus modelos de chamadas telefônicas aprimorados já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.
Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos IoT (Internet das Coisas).
Transcreva seu áudio e vídeo para incluir legendas e melhorar o alcance e a experiência do seu público. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.
Todos os recursos
Todos os recursos
Vocabulário global | Ofereça suporte para sua base global de usuários com mais de 125 idiomas e variantes compatíveis com a Speech-to-Text. |
Streaming de reconhecimento de fala | Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (inline ou por meio do Cloud Storage). |
Adaptação de fala | Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a precisão da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes. |
Speech-to-Text On-Prem | Tenha controle total sobre sua infraestrutura e dados de fala protegidos enquanto usa a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar os primeiros passos. |
Reconhecimento de diversos canais | A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem. |
Robustez de ruído | A Speech-to-Text é capaz de gerenciar áudios com barulho de vários ambientes sem precisar de um cancelamento de ruído extra. |
Modelos para domínios específicos | Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz. |
Filtragem de conteúdo | O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto. |
Detecção automática de idiomas (Beta) | Especifique até quatro códigos de idiomas e a Speech-to-Text identificará o idioma correto falado em cenários com mais de um idioma. |
Pontuação automática (Beta) | A Speech-to-Text inclui sinais de pontuação com precisão nas transcrições, como vírgulas, pontos de interrogação e pontos finais. |
Diarização de locutor (Beta) | Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa. |
Preços
Preços
Os primeiros 60 minutos de conversão de voz em texto corretamente processados por mês são gratuitos. Depois, o preço é cobrado a cada 15 segundos de áudio. As taxas específicas variam de acordo com o modelo usado, se há geração de registros de dados e com o número de canais de áudio.