Use a API Speech-to-Text com a Vertex AI, a nova plataforma unificada de ML do Google Cloud. Saiba mais.

Ir para

Speech-to-Text

Converta voz em texto de maneira precisa usando uma API desenvolvida com as tecnologias de IA do Google.
  • action/check_circle_24px Criado com o Sketch.

    Transcreva seu conteúdo de arquivos armazenados ou em tempo real

  • action/check_circle_24px Criado com o Sketch.

    Proporcione uma experiência melhor aos usuários com comandos de voz

  • action/check_circle_24px Criado com o Sketch.

    Receba insights das interações dos clientes para melhorar seu serviço

Benefícios

Acurácia de última geração

Use os algoritmos de rede neural para aprendizado profundo mais avançados do Google e tenha um reconhecimento de fala automático (ASR).

Alcance global

Atenda às necessidades dos seus usuários onde quer que estejam por meio do reconhecimento de fala com mais de 125 idiomas e variantes compatíveis.

Implantação flexível

Implante o reconhecimento de fala sempre que precisar, seja na nuvem com a API ou no local com o Speech-to-Text On-Prem.

Demonstração

Coloque a Speech-to-Text em ação

Como nesta demonstração, é possível integrar facilmente a transcrição de fala aos seus aplicativos com a API Speech-to-Text.

Principais recursos

Principais recursos

Adaptação de fala

Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.

Modelos para domínios específicos

Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.

Streaming de reconhecimento de fala

Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou por meio do Cloud Storage).

Speech-to-Text On-Prem

Tenha controle total sobre sua infraestrutura e dados de fala protegidos enquanto usa a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar o primeiro passo.

Veja todos os recursos

Clientes

Novidades

O que há de novo

Inscreva-se para receber newsletters do Google Cloud com atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Documentação

Documentação

Princípios básicos do Google Cloud
Princípios básicos da Speech-to-Text

Conheça os princípios básicos da Speech-to-Text.

Guia de início rápido
Guia de início rápido: como usar a ferramenta gcloud

Envie uma solicitação de transcrição de áudio para a Speech-to-Text usando a ferramenta de linha de comando gcloud.

Prática recomendada
Práticas recomendadas

Confira as práticas recomendadas para a transcrição de áudio com a Speech-to-Text.

Princípios básicos do Google Cloud
Idiomas compatíveis

Saiba quais idiomas estão disponíveis para a Speech-to-Text, além dos recursos e modelos de reconhecimento disponíveis para cada um.

Princípios básicos do Google Cloud
Speech-to-Text On-Prem

Saiba mais sobre o Speech-to-Text On-Prem, que permite a integração facilitada da tecnologia de reconhecimento de fala do Google às suas soluções locais.

Casos de uso

Casos de uso

Caso de uso
Melhore o atendimento ao cliente

Melhore seu sistema de atendimento ao cliente com a inclusão de URAs (unidade de resposta audível) e conversas com agentes nas suas centrais de atendimento. Execute análises nos seus dados de conversa para gerar mais insights sobre as chamadas e os clientes. A Speech-to-Text e seus modelos de chamadas telefônicas aprimorados já estão sendo usados pela solução avançada do Google Cloud, a Contact Center AI.

Fluxo de trabalho: os dados de áudio da central de atendimento vão para os produtos do Google Cloud. Do Cloud Storage eles são encaminhados para a (1) transcrição com a API Speech-to-Text para a API Natural Language. Em seguida, vão para (2) análise com o Cloud Data Loss Prevention para (3) edição de informações de identificação pessoal com o BigQuery. Depois disso, o fluxo vai em duas direções, do (4) armazenamento do BigQuery para a (5) consulta e visualização com o recurso "Ver dados da ligação".
Caso de uso
Ative o controle por voz

Implemente comandos de voz, por exemplo, “aumentar volume”, e pesquisas por voz, como “qual é a temperatura em Paris?”. Combine essas funções com a API Text-to-Speech para oferecer experiências ativadas por voz em aplicativos IoT (Internet das Coisas).

Fluxo de trabalho do controle de voz usando a API Speech-to-Text O fluxo começa com o (1) comando de voz do usuário para o dispositivo. Depois disso, há um fluxo duplo de (0) identificação segura com o Cloud IoT Core, e um fluxo duplo para Cloud Functions. Nele, o comando passa por (2) transcrição com a API Speech-to-Text para AutoML Natural Language com a (3) extração de intent e entidade. Depois disso, o texto é encaminhado de volta ao Cloud Functions e ao dispositivo do usuário.
Caso de uso
Transcreva conteúdo multimídia

Transcreva seu áudio e vídeo para incluir legendas e melhorar o alcance e a experiência do seu público. Adicione legendas ao seu conteúdo de streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de machine learning parecida com a das legendas do YouTube.

Fluxo de trabalho de transcrição de conteúdo multimídia: inserção do stream de áudio usando (1) legendas em tempo real no Google Kubernetes Engine. O áudio vai para a API Speech-to-Text na (2) avaliação de transcrição. Depois ele é encaminhado para a VM de aprendizado profundo, para o Firestore e, então para a equipe de moderação de conteúdo ou para o (3) armazenamento e uso no dispositivo de legenda da transmissão.

Todos os recursos

Todos os recursos

Vocabulário global Ofereça suporte para sua base global de usuários com mais de 125 idiomas e variantes compatíveis com o extenso suporte de idiomas da Speech-to-Text.
Streaming de reconhecimento de fala Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida a partir do microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou por meio do Cloud Storage).
Adaptação de fala Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.
Speech-to-Text On-Prem Tenha controle total sobre sua infraestrutura e dados de fala protegidos enquanto usa a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para dar o primeiro passo.
Reconhecimento de diversos canais A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.
Robustez de ruído A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra.
Modelos específicos do domínio Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
Filtragem de conteúdo O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto.
Detecção automática de idiomas (Beta) Especifique até quatro códigos de idiomas e a Speech-to-Text identificará o idioma correto falado em cenários com mais de um idioma.
Pontuação automática (Beta) A Speech-to-Text inclui sinais de pontuação com precisão nas transcrições, como vírgulas, pontos de interrogação e pontos finais.
Diarização de locutor (Beta) Saiba quem disse o que com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.

Preços

Preços

Os primeiros 60 minutos de conversão de voz em texto corretamente processados por mês são gratuitos. Depois, o preço é cobrado a cada 15 segundos de áudio. As taxas específicas variam de acordo com o modelo usado, se há geração de registros de dados e com o número de canais de áudio.