Cloud Speech-to-Text

Conversão de voz em texto com tecnologia de aprendizado de máquina, disponível para áudios de curta e longa duração.

Avaliação gratuita

Reconhecimento de voz avançado

Com a Google Cloud Speech-to-Text, os desenvolvedores convertem áudio em texto aplicando modelos de redes neurais avançados em uma API fácil de usar. A API reconhece mais de 120 idiomas e variantes para oferecer suporte à sua base de usuários global. Você pode ativar comando e controle de voz, transcrever áudio de call centers e muito mais. Além disso, essa API processa streaming em tempo real ou áudio pré-gravado usando a tecnologia de aprendizado de máquina do Google.

speech-api-lead

Converta sua fala em texto agora mesmo

Selecione um idioma e clique em "Começar agora" para gravar

Tecnologia de aprendizado de máquina

Aplique os algoritmos de aprendizado de redes neurais mais avançados a arquivos de áudio para um reconhecimento de voz preciso. A precisão da Cloud Speech-to-Text melhora com o tempo, à medida que o Google aperfeiçoa a tecnologia de reconhecimento de voz interna usada pelos próprios produtos.

Reconhecimento de 120 idiomas e variantes

A Cloud Speech-to-Text permite oferecer suporte à sua base global de usuários, com o reconhecimento de 120 idiomas e variantes. Também é possível filtrar conteúdo inadequado nos resultados de texto em qualquer um desses idiomas.

Identificação automática do idioma falado

Com a Cloud Speech-to-Text, é possível identificar qual é o idioma falado no áudio (para até quatro idiomas). Esse recurso pode ser usado na pesquisa por voz, como "Qual é a temperatura em Paris?", e em casos de usos de comandos, como "Aumente o volume".

Transcrição de texto em tempo real para áudio de curta e longa duração

A Cloud Speech-to-Text é capaz de fazer streaming dos resultados, ou seja, ela retorna o texto no momento em que ele é reconhecido a partir do streaming de áudio ou durante a fala do usuário. A Cloud Speech-to-Text também pode retornar texto reconhecido de áudios armazenados em arquivo. Com essa API, é possível analisar áudio de curta e longa duração.

Transcrição automática de nomes próprios e formatação específica do contexto

A Cloud Speech-to-Text é personalizada para conseguir lidar com situações de fala reais e transcrever nomes próprios corretamente (como Sundar Pichai), bem como aplicar a formatação adequada para o idioma (como datas e números de telefone). O Google reconhece 10 vezes mais nomes próprios do que o número de palavras contidas em todo o dicionário Oxford de inglês.

Seleção de modelos prontos, personalizados para seu caso de uso

A Cloud Speech-to-Text conta com modelos prontos de reconhecimento de fala. Assim, você pode otimizar a ferramenta para seu caso de uso, como comandos de voz. Por exemplo: nosso modelo pronto de transcrição de vídeo é ideal para indexar ou legendar conteúdos de vídeo ou de diversos interlocutores. Ele usa tecnologia de aprendizado de máquina similar à das legendas automáticas do YouTube.

Modelo Descrição
command_and_search Melhor para consultas curtas, como comandos de voz ou pesquisa por voz.
phone_call Melhor para o áudio de uma chamada telefônica, geralmente registrada com uma taxa de amostragem de 8 khz.
video Melhor para o áudio originado de um vídeo ou que inclua vários interlocutores. O ideal é que o áudio seja gravado com uma taxa de amostragem de 16 khz ou mais. Este é um modelo premium que custa mais do que a taxa padrão.
default Melhor para o áudio que não é um dos modelos específicos. Por exemplo, áudio de longa duração. O ideal é que o áudio seja de alta fidelidade e gravado com uma taxa de amostragem de 16 khz ou mais.

Recursos da Cloud Speech-to-Text

Conversão de voz em texto com tecnologia de aprendizado de máquina

Reconhecimento de voz automático
O reconhecimento de voz automático (ASR, na sigla em inglês) com tecnologia de aprendizado de redes neurais avançada é utilizado para otimizar seus aplicativos, como pesquisa por voz ou transcrição de fala.
Vocabulário global
Reconhece 120 idiomas e variantes com um vocabulário extenso.
Dicas de frase
É possível personalizar o reconhecimento de voz para um contexto específico fornecendo um conjunto de palavras e frases que provavelmente serão faladas. Isso é muito útil quando nomes e palavras personalizados são adicionados ao vocabulário e em casos de uso de controle por voz.
Suporte a áudio pré-gravado ou streaming em tempo real
Você pode usar o streaming do microfone de um aplicativo como áudio de entrada ou enviar um arquivo de áudio pré-gravado (in-line ou por meio do Google Cloud Storage). Várias codificações de áudio são compatíveis, incluindo FLAC, AMR, PCMU e Linear-16.
Detecção automática de idioma BETA
No caso de um áudio com mais de um idioma, agora será possível especificar de dois a quatro códigos de idioma. A Cloud Speech-to-Text identificará o idioma falado corretamente e fornecerá a transcrição.
Resistência a ruído
Processa áudio com ruído de muitos ambientes sem exigir outros tipos de cancelamento de ruído.
Filtragem de conteúdo inadequado
Filtra conteúdo inadequado em resultados de texto para alguns idiomas.
Pontuação automática BETA
Com a ajuda do aprendizado de máquina, a API é capaz de pontuar as transcrições corretamente com vírgulas, pontos de interrogação e pontos finais, entre outras.
Seleção de modelo BETA
Escolha entre os quatro modelos prontos: padrão, pesquisa e comandos de voz, chamadas telefônicas e transcrição de vídeo.
Diarização de locutor BETA
Saiba quem disse o quê. Agora, você pode contar com previsões automáticas sobre quais locutores emitiram quais falas em uma conversa.
Reconhecimento de diversos canais BETA
Em áudios com vários participantes em que cada um deles é gravado em um canal individual (por exemplo, chamada telefônica com dois canais ou videoconferência com quatro canais), a Cloud Speech-to-Text reconhece cada canal separadamente e anota a transcrição na ordem em que elas acontecem na conversa real.

Preços da API Cloud Speech-to-Text

Reconhecimento de voz avançado

O uso da Cloud Speech-to-Text é cobrado a cada 15 segundos de áudio processado, após os primeiros 60 minutos gratuitos. Para mais detalhes, veja nosso guia de preços.

Recurso De 0 a 60 minutos Mais de 60 minutos, até 1 milhão de minutos
Reconhecimento de fala (todos os modelos, exceto vídeo) Gratuito US$ 0,006 / 15 segundos*
Reconhecimento de fala em vídeo US$ 0,006 US$ 0,012 / 15 segundos*

Esse preço é para aplicativos em sistemas pessoais, por exemplo, smartphones, tablets, laptops ou desktops. Entre em contato para verificar os preços e solicitar aprovação para usar a Speech-to-Text API em dispositivos incorporados, como carros, TVs, eletrodomésticos ou alto-falantes.

* Cada solicitação é arredondada para cima no incremento de 15 segundos mais próximo. Por exemplo, se você fizer três solicitações separadas, cada uma contendo sete segundos de áudio, receberá uma cobrança de US$ 0,018 por 45 segundos (3 × 15 segundos) de áudio. As frações de segundos são incluídas quando se arredonda para cima no incremento de 15 segundos mais próximo. Ou seja, 15,14 segundos são arredondados para cima e faturados como 30 segundos.

Um produto ou recurso listado nesta página está na versão Beta. Para mais informações sobre nossas etapas de lançamento de produtos, clique neste link.

Enviar comentários sobre…

Cloud Speech-to-Text API