Speech-to-Text
Converta voz em texto com acurácia usando uma API desenvolvida com o melhor da pesquisa e tecnologia de IA do Google.
Novos clientes ganham US$ 300 em créditos para gastar na Speech-to-Text. Todos os clientes recebem 60 minutos gratuitos por mês para transcrever e analisar áudios sem cobranças nos seus créditos.
-
Transcreva seu conteúdo com legendas precisas
-
Habilite o poder da voz para criar melhores experiências do usuário
-
Melhore seu serviço com insights de interações com clientes
-
Comece a usar rapidamente com o tutorial no console
Benefícios
Acurácia de última geração
Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google para reconhecimento automático de fala (ASR).
Fácil personalização de modelos
Experimente, crie e gerencie recursos personalizados com a IU Speech-to-Text.
Implantação de modelos flexível
Implante ASRs onde você precisar, seja na nuvem com a API ou no local com o Speech-to-Text On-Prem.
Demonstração
Coloque a Speech-to-Text em ação
Como nesta demonstração, é possível integrar facilmente a transcrição de fala aos seus aplicativos com a API Speech-to-Text.
Principais recursos
Principais recursos
Adaptação de fala
Forneça dicas para aumentar a acurácia da transcrição de palavras ou frases raras e específicas do domínio. Use classes para converter automaticamente os números falados em endereços, anos, moedas e mais.
Modelos específicos do domínio
Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos.
Compare facilmente a qualidade
Experimente o áudio de fala com nossa interface do usuário descomplicada. Teste também diferentes configurações que otimizam a qualidade e a acurácia.
Speech On-Device
Execute algoritmos de fala do Google Cloud localmente em qualquer dispositivo, independentemente da conectividade com a Internet. Garanta aos usuários que os dados de voz jamais sairão do dispositivo.
Modelo básico da Speech-to-Text
Crie aplicativos habilitados por voz para públicos globais usando modelos de voz com a tecnologia Chirp, o modelo principal do Google Cloud para reconhecimento de fala treinado com milhões de horas de dados de áudio e bilhões de frases.
Clientes
Aprenda com clientes que criam soluções de áudio e voz com a Speech-to-Text
O que há de novo
O que há de novo
Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.
Documentação
Recursos e de iniciação e tutoriais
Tutoriais sobre a Speech-to-Text no console
Aprenda a adicionar a Speech-to-Text aos seus apps atuais. Comece a usar rapidamente com o tutorial no console.
Princípios básicos da Speech-to-Text
Conheça os princípios básicos da Speech-to-Text.
Guia de início rápido: como usar a IU da Speech-to-Text
Saiba como configurar projetos e autorizações, como criar e refinar uma transcrição e aprenda também a usar essa configuração no console.
Guia de início rápido: como usar a ferramenta gcloud
Envie uma solicitação de transcrição de áudio para a Speech-to-Text usando a ferramenta de linha de comando gcloud.
Práticas recomendadas
Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.
Adoção do ML
Conheça os tutoriais, codelabs e outros recursos da Speech-to-Text.
Idiomas suportados
Saiba quais idiomas estão disponíveis para a Speech-to-Text, além dos recursos e modelos de reconhecimento disponíveis para cada um.
Speech-to-Text On-Prem
Saiba mais sobre o Speech-to-Text On-Prem, que permite a integração facilitada da tecnologia de reconhecimento de fala do Google às suas soluções locais.
Casos de uso
Casos de uso
Melhore seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas com agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e seus modelos de chamadas telefônicas aprimorados já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.
Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos de IoT (Internet das Coisas).
Transcreva seu áudio e vídeo para incluir legendas e melhorar o alcance e a experiência do seu público. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.
Todos os recursos
Todos os recursos
Vocabulário global | Apoie sua base global de usuários com o extenso suporte da Speech-to-Text a mais de 125 idiomas e variantes. |
Streaming de reconhecimento de fala | Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida com o microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou com o Cloud Storage). |
Adaptação de fala | Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes. |
Speech-to-Text On-Prem | Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para começar. |
Reconhecimento de diversos canais | A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem. |
Robustez de ruído | A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra. |
Modelos específicos do domínio | Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz. |
Filtragem de conteúdo | O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto. |
Avaliação de transcrição | Faça upload dos seus dados de voz, e eles serão transcritos sem códigos. Avalie a qualidade ao iterar na sua configuração. |
Pontuação automática (Beta) | A Speech-to-Text inclui sinais de pontuação com acurácia nas transcrições, como vírgulas e pontos de interrogação/finais. |
Diarização de locutor (Beta) | Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa. |
Preços
Preços
Os preços da Speech-to-Text são calculados com base na quantidade de áudio processada pelo serviço a cada mês, medida em incrementos de um segundo.