Nesta página, descrevemos como ativar o reconhecimento de idioma para solicitações de transcrição de áudio enviadas para o Speech-to-Text.
Em algumas situações, pode ser que você não saiba ao certo qual é o idioma contido na sua gravação de áudio. Por exemplo, caso seu serviço, aplicativo ou produto seja oferecido em um país com vários idiomas oficiais, você poderá receber entradas de áudio de usuários em idiomas diferentes. Isso pode dificultar muito a especificação de um único código de idioma para solicitações de transcrição.
Reconhecimento de vários idiomas
O Speech-to-Text oferece uma maneira de especificar um conjunto de idiomas alternativos que seus dados de áudio podem conter. Quando você envia uma solicitação de transcrição de áudio para o Speech-to-Text, é possível fornecer uma lista de idiomas complementares que os dados de áudio podem incluir. Se você incluir uma lista de idiomas na sua solicitação, o Speech-to-Text tentará transcrever o áudio com base no idioma que melhor se encaixa na amostra das alternativas fornecidas. O Speech-to-Text rotula os resultados da transcrição com o código de idioma previsto.
Esse recurso é ideal para aplicativos que precisam transcrever frases curtas, como comandos de voz ou pesquisas. É possível listar até três idiomas alternativos dentre os compatíveis com a Speech-to-Text além do idioma principal, somando quatro idiomas no total.
Mesmo que você possa especificar idiomas alternativos para sua solicitação de transcrição de fala,
você ainda deve fornecer um código de idioma principal
no campo languageCode
. Além disso, é recomendável limitar o número de idiomas solicitados ao mínimo. Quanto menos códigos de idioma alternativos forem solicitados, mais fácil é para o Speech-to-Text escolher o correto. Para ter melhores resultados, especifique apenas um idioma.
Ativar o reconhecimento de idioma em solicitações de transcrição de áudio
Para especificar idiomas alternativos na sua transcrição de áudio,
você deve definir o campo alternativeLanguageCodes
como uma lista de
códigos de idioma nos parâmetros RecognitionConfig
da solicitação. A Speech-to-Text é compatível com códigos de idiomas alternativos para todos os métodos de reconhecimento de fala: speech:recognize
, speech:longrunningrecognize
e Streaming .
Usar um arquivo local
Protocolo
Consulte o endpoint da API speech:recognize
para ver todos os detalhes.
Para executar o reconhecimento de fala síncrono, faça uma solicitação POST
e forneça o corpo apropriado a ela. Veja a seguir um exemplo de uma solicitação POST
usando curl
. O exemplo usa a CLI do Google Cloud para gerar um token de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
Confira no exemplo a seguir como solicitar a transcrição de um arquivo de áudio que pode incluir falas em inglês, francês ou alemão.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "alternativeLanguageCodes": ["fr-FR", "de-DE"], "model": "command_and_search" }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }' > multi-language.txt
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON, salvos em um arquivo
chamado multi-language.txt
.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast I'm ..." "confidence": 0.9466864 } ], "languageCode": "en-us" }, { "alternatives": [ { "transcript": " let's go with the black one", "confidence": 0.9829583 } ], "languageCode": "en-us" }, ] }
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Usar um arquivo remoto
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.