Preços do Speech-to-Text
A conversão de voz em texto é precificada com base na quantidade de áudio processado por um serviço a cada mês, medida em incrementos que somam aproximadamente 15 segundos. Se a API retornar uma resposta, o áudio enviado na solicitação será processado. Isso inclui uma resposta vazia, que indica que a API processou o áudio, mas não conseguiu transcrever as informações. Solicitações que resultam em um erro não são contabilizadas como processadas corretamente e, portanto, não geram custos.
A tabela de preços abaixo se aplica aos aplicativos em sistemas pessoais, como smartphones, tablets, notebooks e computadores. Entre em contato com nossa equipe para receber os preços e a aprovação para usar a API Speech-to-text em dispositivos incorporados, como carros, TVs, eletrodomésticos ou alto-falantes.
É possível ver seu status de faturamento atual, incluindo o uso e a fatura atual, no Console do Cloud. Para mais informações sobre o gerenciamento da sua conta, consulte a documentação de faturamento do Cloud ou o suporte de faturamento e pagamentos.
Tabela de preços
Os preços na tabela abaixo se aplicam a minutos de áudio processados por mês.
Engenharia de | Modelos padrão (todos os modelos, exceto chamadas aprimoradas de telefone e vídeo) |
Modelos aprimorados (chamada de telefone, vídeo) |
||
---|---|---|---|---|
De 0 a 60 minutos | Mais de 60 minutos até 1 milhão de minutos | De 0 a 60 minutos | Mais de 60 minutos até 1 milhão de minutos | |
Reconhecimento de fala (sem geração de registros de dados — padrão) | Gratuito | US$ 0,006/15 segundos ** | Gratuito | US$ 0,009/15 segundos ** |
Reconhecimento de fala (com possibilidade da ativação da geração de registros de dados) | Gratuito | US$ 0,004/15 segundos ** | Gratuito | US$ 0,006/15 segundos ** |
** Cada solicitação é arredondada para cima até o incremento mais próximo de 15 segundos.
Fatores dos preços
O preço da API Speech-to-Text é determinado pelos seguintes fatores:
- Se o reconhecimento é realizado usando um modelo padrão ou aprimorado.
- Se você optou pela geração de registros dos dados.
- O número de canais sendo reconhecidos no áudio.
Modelos aprimorados
A API Speech-to-Text disponibiliza vários modelos de machine learning que podem ser usados no reconhecimento de fala. Dois desses modelos, os modelos aprimorados de chamada telefônica e de vídeo, oferecem melhor desempenho de reconhecimento, personalizado para os respectivos usos, e podem gerar resultados de maior qualidade se usados corretamente. Consulte a página de idiomas compatíveis para ver se os modelos aprimorados estão disponíveis no seu idioma.
Geração de registros de dados
Ao optar pela geração de registros dos dados, é possível permitir que o Google grave dados de áudio enviados para a Speech-to-Text. Esses dados ajudam o Google a melhorar os modelos de machine learning usados para a transcrição de fala. Os clientes que ativam o registro de dados usufruem da Speech-to-Text a um preço reduzido.
Vários canais
Cada canal de áudio é faturado separadamente. Se você enviar solicitações com vários canais, a cobrança será feita de acordo com a soma total da duração dos áudios processados de todos os canais. A contagem de tempo é diferente do controle de limites de uso mensal. Os limites de uso são determinados somente pela duração do arquivo de áudio e não contam os vários canais. Por exemplo, ao enviar uma solicitação de 30 segundos de áudio e 4 canais, 120 segundos serão cobrados, mas somente 30 serão contabilizados na sua cota mensal. Veja mais detalhes na página cotas e limites.
Cálculo de preços
Cada solicitação é arredondada para cima até o incremento de 15 segundos mais próximo. Por exemplo, se você fizer três solicitações separadas, cada uma contendo sete segundos de áudio, você receberá uma cobrança de US$ 0,018 por 45 segundos (3 × 15 segundos) de áudio. As frações de segundos são incluídas ao se arredondar para cima para o incremento de 15 segundos mais próximo. Ou seja, 15,14 segundos são arredondados para cima e faturados como 30 segundos.
O uso mensal está limitado a um milhão de minutos por mês. Para um uso maior que esse limite, informe suas necessidades, queremos entender melhor seu caso. Envie uma solicitação de cota da API Speech-to-Text para seu projeto.
Custos do Google Cloud Platform
Alguns serviços adicionais também são pagos, como o armazenamento de arquivos de áudio para reconhecimento no Google Cloud Storage ou o uso de outros recursos do GCP em conjunto com a Speech-to-Text (como as instâncias do Google App Engine). Consulte a calculadora de preços do Google Cloud Platform para determinar outros custos com base nos valores atuais.
A seguir
- Leia a documentação do Speech-to-Text.
- Primeiros passos com o Speech-to-Text.
- Use a calculadora de preços.
- Saiba mais sobre as soluções e casos de uso do Speech-to-Text.