Cloud Speech-to-Text

Conversão de voz em texto com tecnologia de machine learning

Faça uma avaliação gratuita

Consulte a documentação deste produto.

Reconhecimento de fala avançado

Com o Cloud Speech-to-Text, os desenvolvedores convertem áudio em texto ao aplicar modelos de rede neural avançados em uma API fácil de usar. A API reconhece 120 idiomas e variantes para oferecer suporte à sua base de usuários global. Ative o comando e o controle de voz, transcreva áudio de call centers e muito mais. Além disso, essa API processa streaming em tempo real ou áudio pré-gravado usando a tecnologia de machine learning do Google.

speech-api-lead

Converta sua voz em texto agora mesmo

Tecnologia de machine learning

Aplique os algoritmos de rede neural de aprendizado profundo a arquivos de áudio para um reconhecimento de fala preciso. A precisão melhora à medida que o Google aperfeiçoa a tecnologia de reconhecimento de fala interna usada pelos próprios produtos.

machine learning

Reconhecimento de 120 idiomas e variantes

A Cloud Speech-to-Text oferece suporte à sua base global de usuários, com o reconhecimento de 120 idiomas e variantes. Também é possível filtrar conteúdo inadequado nos resultados de texto em qualquer um desses idiomas.

menu de idiomas

Identificação automática do idioma falado

Com a Cloud Speech-to-Text, é possível identificar qual é o idioma falado no áudio (até quatro idiomas). Esse recurso pode ser usado na pesquisa por voz, como "Qual é a temperatura em Paris?", e em casos de usos de comandos, como "Aumente o volume".

idioma falado

Transcrição de áudio de curta e longa duração para texto em tempo real

A Cloud Speech-to-Text pode fazer streaming dos resultados, ou seja, ela retorna o texto no momento em que ele é reconhecido a partir do streaming de áudio ou durante a fala do usuário. A Cloud Speech-to-Text também pode retornar texto reconhecido de áudios armazenados em arquivo. Com essa API, é possível analisar áudio de curta e longa duração.

relógio

Transcrição automática de nomes próprios e formatação específica do contexto

A Cloud Speech-to-Text é personalizada para lidar com situações de fala reais e transcrever nomes próprios corretamente (como nomes e lugares), bem como aplicar a formatação adequada para o idioma (como datas e números de telefone). O Google reconhece 10 vezes mais nomes próprios do que o número de palavras contidas no dicionário Oxford de inglês.

onda sonora

Oferece uma seleção de modelos prontos, personalizados para seu caso de uso

A Cloud Speech-to-Text conta com modelos prontos de reconhecimento de fala. Assim, você otimiza a ferramenta para seu caso de uso, como comandos de voz. Por exemplo: nosso modelo pronto de transcrição de vídeo é ideal para indexar ou legendar conteúdo de vídeo e/ou áudio de diversos interlocutores. Ele usa uma tecnologia de machine learning similar à das legendas do YouTube.

modelo de fala
Modelo Descrição
command_and_search Melhor para consultas curtas, como comandos de voz ou pesquisa por voz.
chamada_telefônica Ideal para o áudio de uma chamada telefônica, geralmente registrado com uma taxa de amostragem de 8 khz.
vídeo Melhor para o áudio originado de um vídeo ou que inclua vários interlocutores. O ideal é que o áudio seja gravado com uma taxa de amostragem de 16 khz ou mais. Este é um modelo premium que custa mais do que a taxa padrão.
default Melhor para o áudio que não é um dos modelos específicos. Por exemplo, áudio de longa duração. O ideal é que o áudio seja de alta fidelidade e gravado com uma taxa de amostragem de 16 khz ou mais.

Recursos

Reconhecimento de fala automático
O reconhecimento de fala automático (ASR, na sigla em inglês) com tecnologia de rede neural de aprendizado profundo é utilizado para otimizar seus aplicativos, como a pesquisa por voz ou a transcrição de fala.
Vocabulário global
Reconhece 120 idiomas e variantes com um vocabulário extenso.
Reconhecimento de fala personalizado
Personalize manualmente o reconhecimento de fala para sua empresa, especificando até 5.000 palavras ou frases que possam ser faladas (como nomes de produtos). Também converta automaticamente números falados em endereços, anos ou moedas ou faça outras conversões, dependendo do contexto.
Suporte a áudio pré-gravado ou streaming em tempo real
Use o streaming do microfone de um aplicativo como áudio de entrada ou envie um arquivo de áudio pré-gravado (in-line ou por meio do Google Cloud Storage). Várias codificações de áudio são compatíveis, incluindo FLAC, AMR, PCMU e Linear-16.
Detecção automática de idiomas (Beta)
Agora será possível especificar de dois a quatro códigos de idioma no caso de um áudio multilíngue. A Cloud Speech-to-Text identificará o idioma falado e fornecerá a transcrição.
Robustez de ruído
Lida com áudio barulhento de muitos ambientes sem exigir cancelamento de ruído adicional.
Filtragem de conteúdo inadequado
Filtra conteúdo inadequado em resultados de texto para alguns idiomas.
Pontuação automática (Beta)
Com a ajuda da machine learning, a API pontua as transcrições corretamente com vírgulas, pontos de interrogação e pontos finais.
Seleção de modelos
Escolha entre os quatro modelos prontos: padrão, pesquisa e comandos de voz, chamadas telefônicas e transcrição de vídeo.
Diarização de locutor (Beta)
Saiba quem disse o quê. Agora conte com previsões automáticas sobre quem é o locutor de cada fala em uma conversa.
Reconhecimento de diversos canais
Em áudios com vários participantes em que cada pessoa é gravada em um canal separado (por exemplo, chamada telefônica com dois canais ou videoconferência com quatro canais), a Cloud Speech-to-Text reconhece cada origem separadamente e anota a transcrição na ordem em que elas acontecem na conversa real.

Preços

O uso da Cloud Speech-to-Text é cobrado a cada 15 segundos de áudio processado, após os primeiros 60 minutos gratuitos. Para ver mais detalhes, veja nosso guia de preços.

Recurso Modelos padrão (todos os modelos, exceto smartphone e vídeo aprimorados) Modelos premium* (smartphone e vídeo aprimorados)
De 0 a 60 minutos Mais de 60 minutos até 1 milhão de minutos De 0 a 60 minutos Mais de 60 minutos a 1 milhão de minutos
Reconhecimento de fala (sem geração de registros de dados — padrão) Gratuito US$ 0,006 / 15 segundos ** Gratuito US$ 0,009 / 15 segundos **
Reconhecimento de fala (com possibilidade de ativação da geração de registros de dados) Gratuito US$ 0,004 / 15 segundos ** Gratuito US$ 0,006 / 15 segundos **

Esses são os preços para aplicativos em sistemas pessoais, como celulares, tablets, laptops ou desktops. Entre em contato com nossa equipe para aprovação e preços para usar a API Cloud Speech-to-Text em dispositivos incorporados, como carros, TVs, aparelhos ou alto-falantes.

* Disponível atualmente apenas em inglês dos EUA.

** Cada solicitação é arredondada para o incremento de 15 segundos mais próximo. Por exemplo, se você fizer três solicitações separadas, cada uma contendo sete segundos de áudio, você receberá uma cobrança de US$ 0,018 por 45 segundos (3 × 15 segundos) de áudio. As frações de segundos são incluídas ao arredondar para cima para o incremento de 15 segundos mais próximo. Ou seja, 15,14 segundos são arredondados e cobrados como 30 segundos.

ícone de balanceamento de carga

Há produtos ou recursos listados nesta página em versão Beta. Para mais informações sobre nossas etapas de lançamento de produtos, clique neste link.

Os produtos de IA do Cloud estão em conformidade com as políticas de SLA listadas aqui. Eles podem oferecer garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.