Com a transcrição de fala, você transcreve o áudio falado em um vídeo ou trecho dele. Cada parte do áudio transcrito é convertida em um bloco de texto.
Modelos compatíveis
A Video Intelligence está disponível apenas com inglês (EUA). Para outros idiomas, use a API Speech-to-Text, que é compatível com todos os idiomas disponíveis. Para ver a lista de idiomas disponíveis, consulte Suporte a idiomas na documentação da Speech-to-Text.
Para transcrever a fala de um vídeo, chame o método annotate
e especifique SPEECH_TRANSCRIPTION
no features
.
É possível usar os recursos a seguir ao transcrever a fala:
Palavras alternativas: use
maxAlternatives
para especificar o número máximo de opções para traduções de texto reconhecidas a serem incluídas na resposta. Esse valor é um número inteiro de 1 a 30. O padrão é 1. A API retorna várias transcrições em ordem decrescente com base no nível de confiança da transcrição. As transcrições alternativas não incluem entradas no nível de palavra.Filtragem de linguagem obscena: use
filterProfanity
para filtrar linguagem obscena conhecida nas transcrições. As palavras correspondentes são substituídas pelo caractere inicial da palavra seguido por asteriscos. O valor padrão é falso.Dicas de transcrição: use a opção
speechContexts
para fornecer frases comuns ou incomuns no áudio. Com essas frases, o serviço cria transcrições mais precisas. Você fornece uma dica de transcrição como um objeto SpeechContext.Seleção de faixa de áudio: use a opção
audioTracks
para especificar qual faixa transcrever em vídeos com várias faixas. Os usuários podem especificar até duas faixas. O padrão é 0. Quando o código de idioma for definido como en-US, a solicitação será encaminhada para o modo avançado, que é treinado para áudio em en-US. Ele não reconhece en-US ou outros idiomas de forma automática. Se colocarmos um áudio em espanhol no modelo aprimorado, a transcrição será executada, mas pode haver saídas com baixo índice de confiança ou nenhuma saída, o que é esperado de um bom modelo.Pontuação automática: use a opção
enableAutomaticPunctuation
para incluir pontuação no texto transcrito. O valor padrão é falso.Vários falantes: use a opção
enableSpeakerDiarization
para identificar diferentes alto-falantes em um vídeo. Na resposta, cada palavra reconhecida inclui um campospeakerTag
, que identifica a que falante essa palavra é atribuída.
Para conseguir melhores resultados, forneça áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais.
Confira o visualizador da API Video Intelligence para ver esse recurso em ação.
Para exemplos de solicitação de transcrição de fala, consulte Transcrição de fala.