Gerar legendas WebVTT e SRT

Nesta página, descrevemos como usar a API Speech-to-Text V2 para gerar legendas automaticamente a partir de arquivos de áudio nos formatos SRT e VTT.

Visão geral

Você pode usar a API Speech-to-Text V2 para gerar legendas automáticas precisas nos formatos SubRip (.srt) e WebVTT (.vtt). Esses formatos são usados para armazenar informações de texto e de marcação de tempo do áudio, possibilitando a exibição de legendas em sincronia com a mídia para legendagem e legendagem descritiva.

A ativação das saídas de legenda em sua solicitação para o Speech-to-Text do Google só é compatível com a API V2. Especificamente, só é possível usar o BatchRecognize para transcrever arquivos de áudio longos. As saídas podem ser salvas em um bucket do Cloud Storage ou retornadas inline. Vários formatos podem ser especificados ao mesmo tempo para a configuração de saída do Cloud Storage, que é gravada no bucket especificado com diferentes extensões de arquivo.

Ativar saídas de legenda em uma solicitação

Para gerar saídas de legenda SRT ou VTT para seu áudio usando a Conversão de voz em texto do Google, siga as seguintes etapas para ativar as saídas de legenda na solicitação de transcrição:

Faça uma solicitação para o método BatchRecognize da API Speech-to-Text V2 com o campo output_format_config preenchido. Os valores especificados são:
- srt, para que a saída siga o formato SubRip(.srt).
- vtt, para que a saída siga o formato WebVTT(.vtt).
- native, que é o formato de saída padrão se nenhum formato for especificado como uma solicitação BatchRecognizeResults serializada.
Como a operação é assíncrona, sonde a solicitação até que ela seja concluída.

Vários formatos podem ser especificados ao mesmo tempo para a configuração de saída do Cloud Storage. Eles são gravados no bucket especificado com diferentes extensões de arquivo. Eles são .json para nativo, .srt para SRT e .vtt para compatibilidade com WebVTT, respectivamente.

Se vários formatos forem especificados para a configuração de saída inline, cada um deles estará disponível como um campo na mensagem BatchRecognitionFileResult.inline_result.

O snippet de código abaixo demonstra como ativar saídas de legenda em uma solicitação de transcrição para o Speech-to-Text usando arquivos locais e remotos:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

A seguir

Aprenda a transcrever arquivos de áudio longos.
Aprenda a escolher o melhor modelo de transcrição.
Transcreva arquivos de áudio usando o Chirp.
Para ter o melhor desempenho e acurácia e ver outras dicas, consulte a documentação sobre práticas recomendadas.

Gerar legendas WebVTT e SRT Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Visão geral

Ativar saídas de legenda em uma solicitação

API

A seguir

Gerar legendas WebVTT e SRT