Converta áudio em transcrições de texto e integre o reconhecimento de fala em aplicativos com APIs fáceis de usar.
Ganhe até 60 minutos por mês para transcrever e analisar áudios sem custos.* Clientes novos também ganham até US$ 300 em créditos para testar a solução Speech-to-Text e outros produtos do Google Cloud.
*Aplicável apenas ao processamento de áudio com a API Speech-to-Text V1.
Recursos
A Speech-to-Text pode usar o Chirp, o modelo básico do Google Cloud para fala com milhões de horas de dados de áudio e bilhões de frases de texto.Isso contrasta com as técnicas tradicionais de reconhecimento de fala que se concentram em grandes quantidades de dados supervisionados específicos da linguagem. Essas técnicas melhoram o reconhecimento e a transcrição de idiomas e sotaques falados.
Crie uma base global de usuários com amplo suporte a idiomas. Transcreva dados de áudio curtos, longos e até mesmo com streaming. A Speech-to-Text também oferece aos usuários tradução e reconhecimento mais precisos e ampliados ao redor do mundo com o Chirp, a próxima geração de modelos de fala universais. O Chirp foi desenvolvido usando treinamento autossupervisionado em milhões de horas de áudio e 28 bilhões de frases de texto em mais de 100 idiomas.
Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos.Personalize, teste, crie e gerencie facilmente recursos personalizados com a interface da Speech-to-Text.
A API Speech-to-Text v2 oferece aos clientes empresariais e corporativos requisitos regulatórios e de segurança adicionais prontos para uso. A residência de dados possibilita a invocação de modelos de transcrição por meio de um serviço totalmente regionalizado que acessa regiões do Google Cloud, como Singapura e Bélgica. A funcionalidade do reconhecedor elimina a necessidade de contas de serviço dedicadas para autenticação e autorização. Os registros para geração e transcrição de recursos são disponibilizados facilmente no console do Google Cloud. Já a API Speech-to-Text v2 oferece criptografia de nível empresarial com chaves de criptografia gerenciadas pelo cliente para todos os recursos, além de transcrição em lote.
O Speech-to-Text usa a adaptação de modelo para melhorar a precisão de palavras usadas com frequência, expandir o vocabulário disponível para transcrição e melhorar a transcrição de áudios barulhentos. A adaptação de modelos permite que os usuários personalizem a Speech-to-Text para reconhecer palavras ou frases específicas com mais frequência do que outras opções sugeridas. Por exemplo, é possível direcionar a conversão de voz em texto para a transcrição de "clima" em vez de "se".
Receba resultados do reconhecimento de fala em tempo real conforme a API processa a entrada de áudio transmitida com o microfone do seu aplicativo ou enviada em um arquivo de áudio pré-gravado (in-line ou com o Cloud Storage).
Forneça dicas para personalizar o reconhecimento de fala e transcrever termos específicos de um domínio e palavras raras. Assim você também poderá melhorar a acurácia da sua transcrição de palavras ou frases específicas. Converta automaticamente números falados em endereços, anos, moedas e muito mais usando classes.
Tenha controle total sobre sua infraestrutura e dados de fala protegidos ao usar a tecnologia de reconhecimento de fala do Google no local diretamente nos seus data centers particulares. Entre em contato com a equipe de vendas para começar.
A Speech-to-Text pode reconhecer diferentes canais em uma situação com diversos locutores (como uma videoconferência) e anotar as transcrições para preservar a ordem.
A Speech-to-Text é capaz de gerenciar áudios com ruídos de vários ambientes sem precisar de um cancelamento de ruído extra.
Escolha dentre uma variedade de modelos treinados para chamadas telefônicas, transcrição de vídeo e controle de voz otimizados para requisitos de qualidade de domínios específicos. Por exemplo, nosso modelo aprimorado de chamada telefônica é ajustado para áudios originados da telefonia, como ligações gravadas em uma taxa de amostragem de 8 khz.
O filtro de linguagem obscena ajuda você a detectar conteúdo inapropriado ou não profissional nos seus dados de áudio, além de remover palavras obscenas nos resultados em texto.
Faça upload dos seus dados de voz, e eles serão transcritos sem códigos. Avalie a qualidade ao iterar na sua configuração.
A Speech-to-Text pontua com precisão as transcrições, por exemplo, fornecendo vírgulas, pontos de interrogação e pontos.
Saiba quem disse o quê com as previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.
Como funciona
A Speech-to-Text tem três métodos principais para realizar o reconhecimento de fala: síncrono, assíncrono e streaming. Cada método retorna resultados de texto com base na necessidade da transcrição no pós-processamento, periodicamente ou em tempo real. Simplificando, você inserirá dados de áudio e receberá uma resposta em texto.
Demonstração
Crie rapidamente uma transcrição de áudio com um upload de arquivo ou falando diretamente em um microfone.
Usos comuns
Criar uma transcrição de áudio
Aprenda a usar a API Speech-to-Text no console do Cloud criando uma transcrição de áudio em apenas algumas etapas. Também é possível transcrever áudios curtos, longos e streaming de áudio.
Criar uma transcrição de áudio
Aprenda a usar a API Speech-to-Text no console do Cloud criando uma transcrição de áudio em apenas algumas etapas. Também é possível transcrever áudios curtos, longos e streaming de áudio.
Como adicionar a Speech-to-Text a apps
Saiba como ativar a Speech-to-Text para seu aplicativo de maneira rápida e fácil com o Google Cloud. Este vídeo mostra como adicionar IA ao seu aplicativo sem ter muita experiência com modelos de machine learning. Com a API Speech-to-Text pré-treinada, é fácil e rápido ativar a IA para seu aplicativo.
Como adicionar a Speech-to-Text a apps
Saiba como ativar a Speech-to-Text para seu aplicativo de maneira rápida e fácil com o Google Cloud. Este vídeo mostra como adicionar IA ao seu aplicativo sem ter muita experiência com modelos de machine learning. Com a API Speech-to-Text pré-treinada, é fácil e rápido ativar a IA para seu aplicativo.
Linguagem, voz, texto e tradução com as APIs do Google Cloud
Neste curso, você vai usar a API Speech-to-Text para transcrever um arquivo de áudio em um arquivo de texto, traduzir com a API Google Cloud Translation e criar fala sintética com o Natural Language. IA.
Linguagem, voz, texto e tradução com as APIs do Google Cloud
Neste curso, você vai usar a API Speech-to-Text para transcrever um arquivo de áudio em um arquivo de texto, traduzir com a API Google Cloud Translation e criar fala sintética com o Natural Language. IA.
Preços
Como funcionam os preços da Speech-to-Text | Os preços da Speech-to-Text são baseados na versão da API, nos canais, nos métodos de lote e em qualquer custo extra de serviço do Google Cloud, como armazenamento. | |
---|---|---|
Versão da API | Serviço e capacidade | Preços |
API Speech-to-Text V1 | A V1 oferece residência de dados apenas para multirregião. Os modelos incluem curto, longo, chamada telefônica e vídeo. A V1 não inclui registros de auditoria.Novos clientes recebem US$ 300 em créditos e 60 minutos para transcrever e analisar áudios gratuitamente por mês sem cobranças nos seus créditos. | US$ 0,024 por minuto |
API Speech-to-Text V2 | A V2 oferece residência de dados para região única e multirregional. Os modelos incluem curto, longo, telefonia, vídeo e Chirp. A V2 inclui registro de auditoria e suporte para chaves de criptografia gerenciadas pelo cliente. | US$ 0,016 por minuto |
Confira os detalhes de preços da Speech-to-Text.
Como funcionam os preços da Speech-to-Text
Os preços da Speech-to-Text são baseados na versão da API, nos canais, nos métodos de lote e em qualquer custo extra de serviço do Google Cloud, como armazenamento.
API Speech-to-Text V1
A V1 oferece residência de dados apenas para multirregião. Os modelos incluem curto, longo, chamada telefônica e vídeo. A V1 não inclui registros de auditoria.Novos clientes recebem US$ 300 em créditos e 60 minutos para transcrever e analisar áudios gratuitamente por mês sem cobranças nos seus créditos.
US$ 0,024
por minuto
API Speech-to-Text V2
A V2 oferece residência de dados para região única e multirregional. Os modelos incluem curto, longo, telefonia, vídeo e Chirp. A V2 inclui registro de auditoria e suporte para chaves de criptografia gerenciadas pelo cliente.
US$ 0,016
por minuto
Confira os detalhes de preços da Speech-to-Text.