Esta página foi traduzida pela API Cloud Translation.

Transcrição de fala

Com a transcrição de fala, você transcreve o áudio falado em um vídeo ou trecho dele. Cada parte do áudio transcrito é convertida em um bloco de texto.

Modelos compatíveis

A Video Intelligence está disponível apenas com inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que é compatível com todos os idiomas disponíveis. Para conferir a lista de idiomas disponíveis, consulte Suporte a idiomas na documentação de conversão da Speech-to-Text.

Para transcrever a fala de um vídeo, chame o método annotate e especifique SPEECH_TRANSCRIPTION no features.

É possível usar os recursos a seguir ao transcrever a fala:

Palavras alternativas: use maxAlternatives para especificar o número máximo de opções para traduções de texto reconhecidas a serem incluídas na resposta. Esse valor é um número inteiro de 1 a 30. O padrão é 1. A API retorna várias transcrições em ordem decrescente com base no nível de confiança da transcrição. As transcrições alternativas não incluem entradas no nível de palavra.
Filtragem de linguagem obscena: use filterProfanity para filtrar linguagem obscena conhecida nas transcrições. As palavras correspondentes são substituídas pelo caractere inicial da palavra seguido por asteriscos. O valor padrão é falso.
Dicas de transcrição: use a opção speechContexts para fornecer frases comuns ou incomuns no áudio. Com essas frases, o serviço cria transcrições mais precisas. Você fornece uma dica de transcrição como um objeto SpeechContext.
Seleção de faixa de áudio: use a opção audioTracks para especificar qual faixa transcrever em vídeos com várias faixas. Os usuários podem especificar até duas faixas. O padrão é 0. Quando o código de idioma for definido como en-US, a solicitação será encaminhada para o modo avançado, que é treinado para áudio em en-US. Ele não reconhece en-US ou outros idiomas de forma automática. Se colocarmos um áudio em espanhol no modelo aprimorado, a transcrição será executada, mas pode haver saídas com baixo índice de confiança ou nenhuma saída, o que é esperado de um bom modelo.
Pontuação automática: use a opção enableAutomaticPunctuation para incluir pontuação no texto transcrito. O valor padrão é falso.
Vários falantes: use a opção enableSpeakerDiarization para identificar diferentes alto-falantes em um vídeo. Na resposta, cada palavra reconhecida inclui um campo speakerTag, que identifica a que falante essa palavra é atribuída.

Para conseguir melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais.

Confira o visualizador da API Video Intelligence para ver esse recurso em ação.

Para exemplos de solicitação de transcrição de fala, consulte Transcrição de fala.