Confira as novidades anunciadas no Google Cloud Next. Assista agora
Ir para

Speech-to-Text

Converta voz em texto com acurácia usando uma API desenvolvida com o melhor da pesquisa e tecnologia de IA do Google.

Novos clientes ganham US$ 300 em créditos para gastar na Speech-to-Text. Todos os clientes recebem 60 minutos gratuitos por mês para transcrever e analisar áudios sem cobranças nos seus créditos.

  • Transcreva seu conteúdo com legendas precisas

  • Habilite o poder da voz para criar melhores experiências do usuário

  • Melhore seu serviço com insights de interações com clientes

  • Comece a usar rapidamente com o tutorial no console

Benefícios

Acurácia de última geração

Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google para reconhecimento automático de fala (ASR).

Fácil personalização de modelos

Experimente, crie e gerencie recursos personalizados com a IU Speech-to-Text.

Implantação de modelos flexível

Implante ASRs onde você precisar, seja na nuvem com a API ou no local com o Speech-to-Text On-Prem.

Demonstração

Coloque a Speech-to-Text em ação

Como nesta demonstração, é possível integrar facilmente a transcrição de fala aos seus aplicativos com a API Speech-to-Text.

Principais recursos

Principais recursos

Adaptação de fala

Forneça dicas para aumentar a acurácia da transcrição de palavras ou frases raras e específicas do domínio. Use classes para converter automaticamente os números falados em endereços, anos, moedas e mais.

Modelos específicos do domínio

Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. 

Compare facilmente a qualidade

Experimente o áudio de fala com nossa interface do usuário descomplicada. Teste também diferentes configurações que otimizam a qualidade e a acurácia.

Speech On-Device

Execute algoritmos de fala do Google Cloud localmente em qualquer dispositivo, independentemente da conectividade com a Internet. Garanta aos usuários que os dados de voz jamais sairão do dispositivo.

Modelo básico da Speech-to-Text

Crie aplicativos habilitados por voz para públicos globais usando modelos de voz com a tecnologia Chirp, o modelo principal do Google Cloud para reconhecimento de fala treinado com milhões de horas de dados de áudio e bilhões de frases.

Confira todos os recursos

Documentação

Recursos e de iniciação e tutoriais

Tutorial
Tutoriais sobre a Speech-to-Text no console

Aprenda a adicionar a Speech-to-Text aos seus apps atuais. Comece a usar rapidamente com o tutorial no console.

Princípios básicos do Google Cloud
Princípios básicos da Speech-to-Text

Conheça os princípios básicos da Speech-to-Text.

Guia de início rápido
Guia de início rápido: como usar a IU da Speech-to-Text

Saiba como configurar projetos e autorizações, como criar e refinar uma transcrição e aprenda também a usar essa configuração no console.

Guia de início rápido
Guia de início rápido: como usar a ferramenta gcloud

Envie uma solicitação de transcrição de áudio para a Speech-to-Text usando a ferramenta de linha de comando gcloud.

Prática recomendada
Práticas recomendadas

Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.

Tutorial
Adoção do ML

Conheça os tutoriais, codelabs e outros recursos da Speech-to-Text.

Princípios básicos do Google Cloud
Idiomas suportados

Saiba quais idiomas estão disponíveis para a Speech-to-Text, além dos recursos e modelos de reconhecimento disponíveis para cada um.

Princípios básicos do Google Cloud
Speech-to-Text On-Prem

Saiba mais sobre o Speech-to-Text On-Prem, que permite a integração facilitada da tecnologia de reconhecimento de fala do Google às suas soluções locais.

Casos de uso

Casos de uso

Caso de uso
Melhorar o atendimento ao cliente

Melhore seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas com agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e seus modelos de chamadas telefônicas aprimorados já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.

Fluxo de trabalho: os dados de áudio da central de atendimento vão para os produtos do Google Cloud. Do Cloud Storage eles são encaminhados para a (1) transcrição com a API Speech-to-Text para a API Natural Language. Em seguida, vão para (2) análise com o Cloud Data Loss Prevention para (3) edição de informações de identificação pessoal com o BigQuery. Depois disso, o fluxo vai em duas direções, do (4) armazenamento do BigQuery para a (5) consulta e visualização com o recurso "Acessar dados da ligação".
Caso de uso
Ativar o controle por voz

Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos de IoT (Internet das Coisas).

Fluxo de trabalho do controle de voz usando a API Speech-to-Text. O fluxo começa com o (1) comando de voz do usuário para o dispositivo. Depois disso, há um fluxo duplo para (0) identificação segura com o Cloud IoT Core e um fluxo duplo para Cloud Functions. Nele, o comando passa por (2) transcrição com a API Speech-to-Text para AutoML Natural Language com a (3) extração de intents e entidades. Depois disso, o texto é encaminhado de volta ao Cloud Functions e ao dispositivo do usuário.
Caso de uso
Transcrever conteúdo multimídia

Transcreva seu áudio e vídeo para incluir legendas e melhorar o alcance e a experiência do seu público. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.

Fluxo de trabalho de transcrição de conteúdo multimídia: inserção do stream de áudio usando (1) legendas em tempo real no Google Kubernetes Engine. O áudio vai para a API Speech-to-Text na (2) avaliação de transcrição. Depois ele é encaminhado para a VM de aprendizado profundo, para o Firestore e, então, para a equipe de moderação de conteúdo ou para o (3) armazenamento e uso no dispositivo de legenda da transmissão.

Todos os recursos

Todos os recursos

Vocabulário global Apoie sua base global de usuários com o extenso suporte da Speech-to-Text a mais de 125 idiomas e variantes.
Streaming de reconhecimento de fala Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida com o microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou com o Cloud Storage).
Adaptação de fala Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.
Speech-to-Text On-Prem Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para começar.
Reconhecimento de diversos canais A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.
Robustez de ruído A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra.
Modelos específicos do domínio Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
Filtragem de conteúdo O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto.
Avaliação de transcrição Faça upload dos seus dados de voz, e eles serão transcritos sem códigos. Avalie a qualidade ao iterar na sua configuração.
Pontuação automática (Beta) A Speech-to-Text inclui sinais de pontuação com acurácia nas transcrições, como vírgulas e pontos de interrogação/finais.
Diarização de locutor (Beta) Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.

Preços

Preços

Os preços da Speech-to-Text são calculados com base na quantidade de áudio processada pelo serviço a cada mês, medida em incrementos de um segundo.