Cloud Speech-to-Text 콘솔의 벤치마킹 기능을 사용하여 Speech-to-Text V2 API에서 사용되는 스크립트 작성 모델의 정확성을 측정합니다.
Cloud Speech-to-Text 콘솔은 선행 학습된 커스텀 Speech-to-Text 모델에 대한 시각적 벤치마킹을 제공합니다. 여러 스크립트 작성 모델의 단어 오류율(WER) 평가 측정항목을 비교하여 인식 품질을 검사하여 애플리케이션에 가장 적합한 모델을 결정할 수 있습니다.
시작하기 전에
Google Cloud 계정에 가입하고 프로젝트를 만들고 커스텀 음성 모델을 학습시키고 엔드포인트를 사용하여 배포했는지 확인합니다.
정답 데이터 세트 만들기
커스텀 벤치마킹 데이터 세트를 만들려면 스크립트 작성 모델이 프로덕션 환경에서 접하게 될 트래픽 유형을 정확하게 반영하는 오디오 샘플을 수집합니다. 이러한 오디오 파일의 총 재생 시간은 30분 이상이고 10시간을 초과하지 않는 것이 좋습니다. 데이터 세트를 조합하려면 다음을 수행해야 합니다.
- 선택한 Cloud Storage 버킷에 디렉터리를 만들어 데이터 세트의 오디오 및 텍스트 파일을 저장합니다.
- 데이터 세트의 모든 오디오 파일에 대해 비교적 정확한 텍스트 변환을 만듭니다. 각 오디오 파일(예:
example_audio_1.wav
)에 해당하는 정답 텍스트 파일(example_audio_1.txt
)을 만들어야 합니다. 이 서비스는 Cloud Storage 버킷에서 이러한 오디오-텍스트 쌍을 사용하여 데이터 세트를 조합합니다.
모델 벤치마킹
커스텀 Speech-to-Text 모델과 벤치마킹 데이터 세트를 사용하여 모델의 정확성을 평가하려면 정확도 측정 및 개선 가이드를 따르세요.