Fique por dentro das novidades sobre IA e ML que ajudarão você a tomar decisões melhores. Inscreva-se no Next '21.

Ir para

Speech-to-Text

Converta voz em texto de maneira precisa usando uma API desenvolvida com as tecnologias de IA do Google.

  • action/check_circle_24px Criado com o Sketch.

    Transcreva seu conteúdo com legendas precisas

  • action/check_circle_24px Criado com o Sketch.

    Use comandos de voz nos seus produtos para oferecer uma experiência melhor ao usuário

  • action/check_circle_24px Criado com o Sketch.

    Receba insights das interações dos clientes para melhorar seu serviço

Benefícios

Acurácia de última geração

Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google para reconhecimento automático de fala (ASR).

Fácil personalização de modelos

A IU do Speech-to-Text permite experimentação, criação e gerenciamento de recursos personalizados.

Implantação flexível

Implante o reconhecimento de fala sempre que precisar, seja na nuvem com a API ou no local com o Speech-to-Text On-Prem.

Demonstração

Coloque a Speech-to-Text em ação

Como nesta demonstração, é possível integrar facilmente a transcrição de fala aos seus aplicativos com a API Speech-to-Text.

Principais recursos

Principais recursos

Adaptação de fala

Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.

Modelos para domínios específicos

Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.

Compare facilmente a qualidade

Experimente o áudio de fala com nossa interface do usuário descomplicada. Teste também diferentes configurações que otimizam a qualidade e a acurácia.

Speech-to-Text On-Prem

Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local, diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar o primeiro passo.

Veja todos os recursos

Novidades

Documentação

Documentação

Princípios básicos do Google Cloud
Princípios básicos da Speech-to-Text

Conheça os princípios básicos da Speech-to-Text.

Guia de início rápido
Guia de início rápido: como usar a ferramenta gcloud

Envie uma solicitação de transcrição de áudio para a Speech-to-Text usando a ferramenta de linha de comando gcloud.

Prática recomendada
Práticas recomendadas

Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.

Tutorial
Adoção do ML

Conheça os tutoriais, codelabs e outros recursos da Speech-to-Text.

Princípios básicos do Google Cloud
Idiomas suportados

Saiba quais idiomas estão disponíveis para a Speech-to-Text, além dos recursos e modelos de reconhecimento disponíveis para cada um.

Princípios básicos do Google Cloud
Speech-to-Text On-Prem

Saiba mais sobre o Speech-to-Text On-Prem, que permite a integração facilitada da tecnologia de reconhecimento de fala do Google às suas soluções locais.

Guia de início rápido
Guia de início rápido: como usar a IU da Speech-to-Text

Saiba como configurar projetos e autorizações, como criar e refinar uma transcrição e aprenda também a usar essa configuração no console.

Casos de uso

Casos de uso

Caso de uso
Melhore o atendimento ao cliente

Melhore seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas com agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e seus modelos de chamadas telefônicas aprimorados já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.

Fluxo de trabalho: os dados de áudio da central de atendimento vão para os produtos do Google Cloud. Do Cloud Storage eles são encaminhados para a (1) transcrição com a API Speech-to-Text para a API Natural Language. Em seguida, vão para (2) análise com o Cloud Data Loss Prevention para (3) edição de informações de identificação pessoal com o BigQuery. Depois disso, o fluxo vai em duas direções, do (4) armazenamento do BigQuery para a (5) consulta e visualização com o recurso "Ver dados da ligação".
Caso de uso
Ative o controle por voz

Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos de IoT (Internet das Coisas).

Fluxo de trabalho do controle de voz usando a API Speech-to-Text O fluxo começa com o (1) comando de voz do usuário para o dispositivo. Depois disso, há um fluxo duplo de (0) identificação segura com o Cloud IoT Core, e um fluxo duplo para Cloud Functions. Nele, o comando passa por (2) transcrição com a API Speech-to-Text para AutoML Natural Language com a (3) extração de intents e entidades. Depois disso, o texto é encaminhado de volta ao Cloud Functions e ao dispositivo do usuário.
Caso de uso
Transcreva conteúdo multimídia

Transcreva seu áudio e vídeo para incluir legendas e melhorar o alcance e a experiência do seu público. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.

Fluxo de trabalho de transcrição de conteúdo multimídia: inserção do stream de áudio usando (1) legendas em tempo real no Google Kubernetes Engine. O áudio vai para a API Speech-to-Text na (2) avaliação de transcrição. Depois ele é encaminhado para a VM de aprendizado profundo, para o Firestore e, então para a equipe de moderação de conteúdo ou para o (3) armazenamento e uso no dispositivo de legenda da transmissão.

Todos os recursos

Todos os recursos

Vocabulário global Apoie sua base global de usuários com o extenso suporte da Speech-to-Text a mais de 125 idiomas e variantes.
Streaming de reconhecimento de fala Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou por meio do Cloud Storage).
Adaptação de fala Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.
Speech-to-Text On-Prem Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar o primeiro passo.
Reconhecimento de diversos canais A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.
Robustez de ruído A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra.
Modelos específicos do domínio Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
Filtragem de conteúdo O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto.
Avaliação de transcrição Faça upload dos seus dados de voz, e eles serão transcritos sem códigos. Avalie a qualidade ao iterar na sua configuração.
Pontuação automática (Beta) A Speech-to-Text inclui sinais de pontuação com precisão nas transcrições, como vírgulas, pontos de interrogação e pontos finais.
Diarização de locutor (Beta) Saiba quem disse o que com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.

Preços

Preços

O uso da Speech-to-Text é cobrado por cada 15 segundos de áudio processado após os primeiros 60 minutos gratuitos.