Speech-to-Text

Converta voz em texto de maneira precisa usando uma API desenvolvida com as tecnologias de IA do Google.

Faça um teste gratuito
  • action/check_circle_24px Criado com o Sketch.

    Transcreva seu conteúdo com legendas precisas

  • action/check_circle_24px Criado com o Sketch.

    Use os comandos de voz para oferecer uma experiência de usuário melhor nos produtos

  • action/check_circle_24px Criado com o Sketch.

    Receba insights das interações dos clientes para melhorar seu serviço

Precisão de última geração

Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google e tenha um reconhecimento de fala automático (ASR).

Alcance global

Atenda às necessidades dos seus usuários em qualquer lugar que eles estiverem por meio do reconhecimento de fala com mais de 125 idiomas e variantes compatíveis.

Aceleração da inovação

Use o melhor das tecnologias do Google na Text-to-Speech e no Natural Language para conseguir casos de uso, como bots de voz e análise de sentimento para fala.

Coloque a Speech-to-Text em ação

Principais recursos

Adaptação de fala

Forneça dicas para personalizar o reconhecimento de fala com o objetivo de transcrever termos específicos do domínio e palavras raras. Além disso, otimize a precisão da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.

Modelos específicos do domínio

Escolha entre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade específicos do domínio. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.

Streaming de reconhecimento de fala

Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (inline ou por meio do Cloud Storage).

Veja todos os recursos

Clientes

O Castbox usa a Speech-to-Text para oferecer um serviço de pesquisa em áudio para podcasts.
Leia a história

Destaques da história

  • Permitiu que os usuários pesquisassem palavras e frases em conteúdo de áudio

  • Taxas maiores que 96% na precisão da conversão de áudio em texto

  • Consultas de pesquisa comuns com latência de apenas 50 milissegundos

Setor

  • Tecnologia

O que há de novo

Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Documentação

Princípios básicos do Google Cloud
Princípios básicos da Speech-to-Text

Conheça os princípios básicos da Speech-to-Text.

Guia de início rápido
Guia de início rápido: como usar a ferramenta gcloud

Envie um pedido de transcrição de áudio para a Speech-to-Text usando a ferramenta de linha de comando gcloud.

Práticas recomendadas
Práticas recomendadas

Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.

Tutorial
Adoção do ML

Veja os tutoriais, codelabs e mais sobre a Speech-to-Text.

Princípios básicos do Google Cloud
Idiomas compatíveis

Saiba quais idiomas estão disponíveis para a Speech-to-Text e veja os recursos e modelos de reconhecimento disponíveis para cada idioma.

Casos de uso

Caso de uso
Melhore o atendimento ao cliente

Capacite seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas para agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e os modelos de chamada telefônica aprimorados dela já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.

Como usar a Contact Center AI com a tecnologia de conversão de voz em texto para melhorar o atendimento ao cliente
Caso de uso
Ative o controle por voz

Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos IoT (Internet das Coisas).

Fluxo de trabalho do controle por voz usando a API Speech-to-Text
Caso de uso
Transcreva conteúdo multimídia

Transcreva seu áudio e vídeo para incluir legendas e melhorar seu alcance de público e experiência. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.

Fluxo de trabalho da transcrição de conteúdo multimídia

Todos os recursos

Vocabulário global Ofereça suporte para sua base global de usuários com mais de 125 idiomas e variantes compatíveis com a Speech-to-Text.
Streaming de reconhecimento de fala Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (inline ou por meio do Cloud Storage).
Adaptação de fala Forneça dicas para personalizar o reconhecimento de fala com o objetivo de transcrever termos específicos de domínio e palavras raras. Além disso, otimize a precisão da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando as classes.
Reconhecimento de diversos canais A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.
Robustez de ruído A Speech-to-Text é capaz de gerenciar áudios com barulho de vários ambientes sem precisar de um cancelamento de ruído extra.
Modelos específicos do domínio Escolha entre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade específicos do domínio. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
Filtragem de conteúdo O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudios, além de remover palavras obscenas nos resultados em texto.
Detecção automática de idiomas (Beta) Especifique até quatro códigos de idiomas e a Speech-to-Text identificará o idioma correto falado em cenários com mais de um idioma.
Pontuação automática (Beta) A Speech-to-Text inclui sinais de pontuação com precisão nas transcrições, como vírgulas, pontos de interrogação e pontos finais.
Diarização de locutor (Beta) Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.

Preços

O uso da Speech-to-Text é cobrado a cada 15 segundos de áudio processado após os primeiros 60 minutos gratuitos.