Speech-to-Text

Transforme voz em texto com a IA do Google

Converta áudio em transcrições de texto e integre o reconhecimento de fala em aplicativos com APIs fáceis de usar.

Clientes novos também ganham até US$ 300 em créditos para testar a solução Speech-to-Text e outros produtos do Google Cloud.

Recursos

IA de fala avançada

A Speech-to-Text pode usar o Chirp, o modelo básico do Google Cloud para fala com milhões de horas de dados de áudio e bilhões de frases de texto.Isso contrasta com as técnicas tradicionais de reconhecimento de fala que se concentram em grandes quantidades de dados supervisionados específicos da linguagem. Essas técnicas melhoram o reconhecimento e a transcrição de idiomas e sotaques falados.

Suporte para 125 idiomas e variantes

Crie uma base global de usuários com amplo suporte a idiomas. Transcreva dados de áudio curtos, longos e até mesmo com streaming. A Speech-to-Text também oferece aos usuários tradução e reconhecimento mais precisos e ampliados ao redor do mundo com o Chirp, a próxima geração de modelos de fala universais. O Chirp foi desenvolvido usando treinamento autossupervisionado em milhões de horas de áudio e 28 bilhões de frases de texto em mais de 100 idiomas.

Modelos pré-treinados ou personalizáveis para transcrição

Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos.Personalize, teste, crie e gerencie facilmente recursos personalizados com a interface da Speech-to-Text.

Compliance regulamentar e de segurança pronta para uso

A API Speech-to-Text v2 oferece aos clientes empresariais e corporativos requisitos regulatórios e de segurança adicionais prontos para uso. A residência de dados possibilita a invocação de modelos de transcrição por meio de um serviço totalmente regionalizado que acessa regiões do Google Cloud, como Singapura e Bélgica. A funcionalidade do reconhecedor elimina a necessidade de contas de serviço dedicadas para autenticação e autorização. Os registros para geração e transcrição de recursos são disponibilizados facilmente no console do Google Cloud. Já a API Speech-to-Text v2 oferece criptografia de nível empresarial com chaves de criptografia gerenciadas pelo cliente para todos os recursos, além de transcrição em lote.


Reconhecimento de fala e transcrição com tecnologia de IA

O Speech-to-Text usa a adaptação de modelo para melhorar a precisão de palavras usadas com frequência, expandir o vocabulário disponível para transcrição e melhorar a transcrição de áudios barulhentos. A adaptação de modelos permite que os usuários personalizem a Speech-to-Text para reconhecer palavras ou frases específicas com mais frequência do que outras opções sugeridas. Por exemplo, é possível direcionar a conversão de voz em texto para a transcrição de "clima" em vez de "se".

Streaming de reconhecimento de fala

Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida com o microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou com o Cloud Storage).


Adaptação de fala

Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.

Speech-to-Text On-Prem

Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para começar.

Reconhecimento de diversos canais

A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.

Robustez de ruído

A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra.

Modelos específicos do domínio

Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.

Filtragem de conteúdo

O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto.

Avaliação de transcrição

Faça upload dos seus dados de voz, e eles serão transcritos sem códigos. Avalie a qualidade ao iterar na sua configuração.

Pontuação automática (Beta)

A Speech-to-Text pontua com precisão as transcrições, por exemplo, fornecendo vírgulas, pontos de interrogação e pontos.


Diarização de locutor

Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.

Como funciona

A Speech-to-Text tem três métodos principais para realizar o reconhecimento de fala: síncrono, assíncrono e streaming. Cada método retorna resultados de texto com base na necessidade da transcrição no pós-processamento, periodicamente ou em tempo real. Simplificando, você inserirá dados de áudio e receberá uma resposta em texto.

Adicionar conversão de voz em texto ao app
Aprenda a adicionar a Speech-to-Text aos seus apps atuais.

Demonstração

Testar a API Speech-to-Text

Crie rapidamente uma transcrição de áudio com um upload de arquivo ou falando diretamente em um microfone.

Usos comuns

Transcrever áudio

Criar uma transcrição de áudio

Aprenda a usar a API Speech-to-Text no console do Cloud criando uma transcrição de áudio em apenas algumas etapas. Também é possível transcrever áudios curtos, longos e streaming de áudio.

Comece a usar a Speech-to-Text
interface de transcrição de áudio

Criar uma transcrição de áudio

Aprenda a usar a API Speech-to-Text no console do Cloud criando uma transcrição de áudio em apenas algumas etapas. Também é possível transcrever áudios curtos, longos e streaming de áudio.

Comece a usar a Speech-to-Text
interface de transcrição de áudio

Transcreva vídeos usando a IA

Criar legendas para vídeos usando a IA

Transcreva seu áudio e vídeo para incluir legendas. Adicione legendas a conteúdos já existentes ou ao streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de aprendizado de máquina semelhante à do YouTube para legendas. Neste tutorial, mostramos como usar as APIs Speech-to-Text e Translation dos serviços de IA do Google Cloud para adicionar legendas a vídeos e fornecer legendas localizadas em outros idiomas.

Assista ao tutorial de legendas automáticas
Legendas da Speech-to-Text

Criar legendas para vídeos usando a IA

Transcreva seu áudio e vídeo para incluir legendas. Adicione legendas a conteúdos já existentes ou ao streaming em tempo real. Nosso modelo de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou com diversos interlocutores. Além disso, ele usa uma tecnologia de aprendizado de máquina semelhante à do YouTube para legendas. Neste tutorial, mostramos como usar as APIs Speech-to-Text e Translation dos serviços de IA do Google Cloud para adicionar legendas a vídeos e fornecer legendas localizadas em outros idiomas.

Assista ao tutorial de legendas automáticas
Legendas da Speech-to-Text

Adicionar a Speech-to-Text a apps

Como adicionar a Speech-to-Text a apps

Saiba como ativar a Speech-to-Text para seu aplicativo de maneira rápida e fácil com o Google Cloud. Este vídeo mostra como adicionar IA ao seu aplicativo sem ter muita experiência com modelos de machine learning. Com a API Speech-to-Text pré-treinada, é fácil e rápido ativar a IA para seu aplicativo.

Assista ao vídeo de exemplo
Transcrição avançada com a tecnologia de IA do Google e interface da API

Como adicionar a Speech-to-Text a apps

Saiba como ativar a Speech-to-Text para seu aplicativo de maneira rápida e fácil com o Google Cloud. Este vídeo mostra como adicionar IA ao seu aplicativo sem ter muita experiência com modelos de machine learning. Com a API Speech-to-Text pré-treinada, é fácil e rápido ativar a IA para seu aplicativo.

Assista ao vídeo de exemplo
Transcrição avançada com a tecnologia de IA do Google e interface da API

Traduzir áudio em texto

Linguagem, voz, texto e tradução com as APIs do Google Cloud

Neste curso, você vai usar a API Speech-to-Text para transcrever um arquivo de áudio em um arquivo de texto, traduzir com a API Google Cloud Translation e criar fala sintética com o Natural Language. IA.

Comece o curso
Curso da Speech-to-Text

Linguagem, voz, texto e tradução com as APIs do Google Cloud

Neste curso, você vai usar a API Speech-to-Text para transcrever um arquivo de áudio em um arquivo de texto, traduzir com a API Google Cloud Translation e criar fala sintética com o Natural Language. IA.

Comece o curso
Curso da Speech-to-Text

Preços

Como funcionam os preços da Speech-to-TextOs preços da Speech-to-Text são baseados na versão da API, nos canais, nos métodos de lote e em qualquer custo extra de serviço do Google Cloud, como armazenamento.
Versão da APIServiço e capacidadePreços

API Speech-to-Text V1

A V1 oferece residência de dados apenas para multirregião. Os modelos incluem curto, longo, chamada telefônica e vídeo. A V1 não inclui registros de auditoria.Novos clientes recebem US$ 300 em créditos e 60 minutos para transcrever e analisar áudios gratuitamente por mês sem cobranças nos seus créditos.

US$ 0,024

por minuto

API Speech-to-Text V2


A V2 oferece residência de dados para região única e multirregional. Os modelos incluem curto, longo, telefonia, vídeo e Chirp. A V2 inclui registro de auditoria e suporte para chaves de criptografia gerenciadas pelo cliente.

US$ 0,016

por minuto

Confira os detalhes de preços da Speech-to-Text.

Como funcionam os preços da Speech-to-Text

Os preços da Speech-to-Text são baseados na versão da API, nos canais, nos métodos de lote e em qualquer custo extra de serviço do Google Cloud, como armazenamento.

API Speech-to-Text V1

Serviço e capacidade

A V1 oferece residência de dados apenas para multirregião. Os modelos incluem curto, longo, chamada telefônica e vídeo. A V1 não inclui registros de auditoria.Novos clientes recebem US$ 300 em créditos e 60 minutos para transcrever e analisar áudios gratuitamente por mês sem cobranças nos seus créditos.

Preços

US$ 0,024

por minuto

API Speech-to-Text V2


Serviço e capacidade

A V2 oferece residência de dados para região única e multirregional. Os modelos incluem curto, longo, telefonia, vídeo e Chirp. A V2 inclui registro de auditoria e suporte para chaves de criptografia gerenciadas pelo cliente.

Preços

US$ 0,016

por minuto

Confira os detalhes de preços da Speech-to-Text.

Calculadora de preços

Estime seus custos mensais de conversão de voz em texto, incluindo preços e taxas específicos da região.

Cota personalizada

Fale com nossa equipe de vendas e receba uma cotação personalizada para sua organização.

Comece sua prova de conceito

Clientes novos ganham até US$ 300 em créditos para testar a solução Speech-to-Text e outros produtos do Google Cloud

Speech-to-Text On-Prem

Princípios básicos da Speech-to-Text

Exemplos de código da Speech-to-Text

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
Google Cloud