WebVTT 및 SRT 자막 생성

이 페이지에서는 Speech-to-Text V2 API를 사용하여 오디오 파일에서 자막을 SRT 및 VTT 형식으로 자동 생성하는 방법을 설명합니다.

개요

Speech-to-Text V2 API 기능을 사용하여 정확한 자막을 SubRip(.srt) 및 WebVTT(.vtt) 형식으로 자동 생성할 수 있습니다. 이러한 형식은 오디오의 텍스트 및 타이밍 정보를 저장하는 데 사용되며 자막 표시와 자막 방송을 위해 미디어와 동기화된 자막을 표시할 수 있습니다.

V2 API에서만 Google Speech-to-Text로 보낸 요청에서 자막 출력을 사용 설정할 수 있습니다. 특히 BatchRecognize만 사용하여 긴 오디오 파일을 텍스트로 변환할 수 있습니다. 출력을 Cloud Storage 버킷에 저장하거나 인라인으로 반환할 수 있습니다. Cloud Storage 출력 구성에 여러 형식을 동시에 지정할 수 있으며 이 구성은 서로 다른 파일 확장자로 지정된 버킷에 작성됩니다.

요청에 자막 출력 사용 설정

Google Speech-to-Text를 사용하여 오디오의 SRT 또는 VTT 자막 출력을 생성하려면 다음 단계를 수행하여 스크립트 작성 요청에서 자막 출력을 사용 설정합니다.

  1. output_format_config 필드를 채워서 Speech-to-Text V2 API BatchRecognize 메서드에 요청을 보냅니다. 지정된 값은 다음과 같습니다.
    • srt: 출력이 SubRip(.srt) 형식을 따릅니다.
    • vtt: 출력이 WebVTT(.vtt) 형식을 따릅니다.
    • native: 직렬화된 BatchRecognizeResults 요청으로 지정된 형식이 없는 경우의 기본 출력 형식입니다.
  2. 작업은 비동기적이므로 완료될 때까지 요청을 폴링합니다.

Cloud Storage 출력 구성에서 여러 형식을 동시에 지정할 수 있습니다. 이러한 형식은 서로 다른 파일 확장자로 지정된 버킷에 작성됩니다. 네이티브의 경우 .json, SRT의 경우 .srt, WebVTT 지원의 경우 .vtt입니다.

인라인 출력 구성에 여러 형식이 지정된 경우 각 형식은 BatchRecognizeFileResult.inline_result 메시지의 필드로 사용 가능합니다.

다음 코드 스니펫에서는 로컬 파일과 원격 파일을 사용하여 Speech-to-Text에 대한 스크립트 작성 요청에서 자막 출력을 사용 설정하는 방법을 보여줍니다.

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

다음 단계

  • [긴 오디오 파일의 텍스트 변환][일괄 인식] 방법 알아보기
  • 최적의 스크립트 작성 모델을 선택하는 방법 알아보기
  • [Chirp][chirp]를 사용하여 오디오 파일 텍스트 변환
  • 최상의 성능, 정확도, 기타 팁은 [권장사항][best-practices] 문서를 참조하세요.