Preços

A conversão de voz em texto é precificada com base na quantidade de áudio processado por um serviço a cada mês, medida em incrementos que somam aproximadamente 15 segundos.

A tabela de preços abaixo se aplica aos aplicativos em sistemas pessoais, como smartphones, tablets, notebooks e computadores. Entre em contato com nossa equipe para receber os preços e a aprovação para usar a API Speech-to-text em dispositivos incorporados, como carros, TVs, eletrodomésticos ou alto-falantes.

Para ver o status atualizado da sua fatura, incluindo o uso e o valor atual, acesse o Console do Cloud. Para mais informações sobre o gerenciamento da sua conta, consulte a documentação de faturamento do Cloud ou o suporte de faturamento e pagamentos.

Tabela de preços

Recurso Modelos padrão
(todos os modelos, exceto chamadas aprimoradas de telefone e vídeo)
Modelos aprimorados
(chamada de telefone, vídeo)
De 0 a 60 minutos Mais de 60 minutos até 1 milhão de minutos De 0 a 60 minutos Mais de 60 minutos até 1 milhão de minutos
Reconhecimento de fala (sem geração de registros de dados — padrão) Gratuito US$ 0,006/15 segundos ** Gratuito US$ 0,009/15 segundos **
Reconhecimento de fala (com possibilidade da ativação da geração de registros de dados) Gratuito US$ 0,004/15 segundos ** Gratuito US$ 0,006/15 segundos **

** Cada solicitação é arredondada para o incremento mais próximo de 15 segundos.

Fatores dos preços

O preço da API Speech-to-Text é determinado pelos seguintes fatores:

Modelos aprimorados

A API Speech-to-Text disponibiliza vários modelos de machine learning que podem ser usados no reconhecimento de fala. Dois desses modelos, os modelos aprimorados de chamada telefônica e de vídeo, oferecem melhor desempenho de reconhecimento, personalizado para os respectivos usos, e podem gerar resultados de maior qualidade se usados corretamente. Consulte a página de idiomas compatíveis para ver se os modelos aprimorados estão disponíveis no seu idioma.

Geração de registros de dados

Ao optar pela geração de registros dos dados, é possível permitir que o Google grave dados de áudio enviados para a Speech-to-Text. Esses dados ajudam o Google a melhorar os modelos de machine learning usados para a transcrição de fala. Os clientes que ativam o registro de dados usufruem da Speech-to-Text a um preço reduzido.

Vários canais

Cada canal de áudio é faturado separadamente. Se você enviar solicitações com vários canais, a cobrança será feita de acordo com a soma total da duração dos áudios processados de todos os canais. A contagem de tempo é diferente do controle de limites de uso mensal. Os limites de uso são determinados somente pela duração do arquivo de áudio e não contam os vários canais. Por exemplo, ao enviar uma solicitação de 30 segundos de áudio e 4 canais, 120 segundos serão cobrados, mas somente 30 serão contabilizados na sua cota mensal. Veja mais detalhes na página cotas e limites.

Cálculo de preços

Cada solicitação é arredondada para cima até o incremento de 15 segundos mais próximo. Por exemplo, se você fizer três solicitações separadas, cada uma contendo sete segundos de áudio, você receberá uma cobrança de US$ 0,018 por 45 segundos (3 × 15 segundos) de áudio. As frações de segundos são incluídas ao se arredondar para cima para o incremento de 15 segundos mais próximo. Ou seja, 15,14 segundos são arredondados para cima e faturados como 30 segundos.

O uso mensal está limitado a um milhão de minutos por mês. Para um uso maior que esse limite, informe suas necessidades, queremos entender melhor seu caso. Envie uma solicitação de cota da API Speech-to-Text para seu projeto.

Custos do Google Cloud Platform

Alguns serviços adicionais também são pagos, como o armazenamento de arquivos de áudio para reconhecimento no Google Cloud Storage ou o uso de outros recursos do GCP em conjunto com a Speech-to-Text (como as instâncias do Google App Engine). Consulte a calculadora de preços do Google Cloud Platform para determinar outros custos com base nos valores atuais.