이 빠른 시작에서는 오디오 데이터에 대해 Google Cloud Speech-to-Text의 정확도를 측정하고 개선하는 방법을 알아봅니다. 또한 스크립트 작성 정확도를 개선하기 위해 API에서 사용할 수 있는 다양한 모델 및 옵션도 살펴봅니다. Google Cloud 콘솔의 Speech-to-Text UI와 정답 파일을 사용하여 정확도를 측정하고 Speech-to-Text 시스템에 대한 인사이트를 얻는 방법을 살펴봅니다.
머신러닝(ML) 시스템은 본질적으로 부정확성을 포함할 수 밖에 없으며, Speech-to-Text 시스템으로도 알려진 자동 음성 인식(ASR) 시스템도 예외가 아닙니다. 올바른 정확도 측정은 오디오 녹음 품질과 음향 조건의 차이가 정확도에 큰 영향을 줄 수 있기 때문에 특정 사용 사례 및 평가 대상 시스템과 긴밀하게 결합되어 있습니다. 따라서 모든 고객 및 사용 사례를 위한 하나의 정확도 점수란 실질적으로 효과가 없습니다. 중요한 프로덕션 기반 시스템 성능에서 ASR 시스템의 성능을 안정적으로 보장하기 위해서는 포괄적인 시스템 상황에서 Speech-to-Text의 성능 방식을 이해하는 것이 필요합니다.
이 빠른 시작 가이드에서는 비교를 위해 단어 오류율(WER)이라는 업계 표준 방법을 사용합니다. WER의 계산 및 해석 방법에 대한 자세한 내용은 음성 정확도 측정 및 개선을 참조하세요. 그럼 시작하겠습니다.
Speech-to-Text 콘솔 시작하기
Google Cloud 계정에 가입하고 프로젝트를 만들었는지 확인합니다. 1. Google Cloud 콘솔에서 음성으로 이동하고 Speech-to-Text UI로 이동합니다. 2. 사용 사례와 ASR 시스템 사용 방법을 음향적으로 나타내는 오디오 파일을 사용하여 빠른 시작 안내에 따라 Speech-to-Text를 사용하여 첫 번째 스크립트 작성을 수행합니다.
스크립트 작성 정확도 계산
- 오디오 파일을 성공적으로 스크립트로 작성한 후
Transcription Accuracy
섹션을 사용합니다. 이 섹션은 스크립트 작성에 대해 정확도가 계산될 때까지 빈 상태로 유지됩니다. - 섹션 상단에서 정답 업로드 버튼을 사용하여 정확도 계산을 시작할 수 있습니다.
정답 지정
- 스크립트 작성의 정확도를 계산하기 위해 정답 파일을 제공합니다. 이것은
.txt
또는.csv
파일이며, 비교를 위해 올바르거나 예상되는 스크립트가 포함된 일반적으로 사람이 만든 스크립트 파일입니다. gs://cloud-samples-data/speech/brooklyn_bridge.wav
를 예시로 사용합니다. 정답 파일에는How old is the Brooklyn Bridge
가 포함되어 있습니다. 정답 파일이 없으면 스크립트를 텍스트 형식으로 다운로드합니다. 필요에 따라 스크립트 파일을 수정합니다. 스크립트 파일을 정답 파일로 업로드합니다.- 업로드 또는 기존 Cloud Storage 파일을 사용하여 정답 파일을 지정하고 저장을 클릭합니다.
정답 확인
- 저장을 클릭하면 지정된 정답 파일이 올바른지 확인하는 메시지가 표시됩니다. 정확도 측정항목에 직접적인 영향을 주므로, 정답 파일이 올바른 스크립트를 정확하게 나타내는지 확인합니다.
- 확인을 클릭하여 계속 진행합니다.
평가 결과 검토
- 입력 데이터의 크기에 따라 평가 프로세스에 시간이 걸릴 수 있고, 완료되면 결과가 표시됩니다.
- 평가가 완료되면 다음 섹션이 표시됩니다.
- 프로세스에 사용된 스크립트 정확도 테이블, 정확도 측정항목, 정답 파일 링크
- 세분화된 정확도 측정항목 및 강조 표시와 함께 정답 파일과 비교하기 위한 전환 버튼이 포함된
Transcription
- 정확도 결과를 검토 및 분석하여 사용된 Speech-to-Text 인식기 성능을 파악하고 개선이 필요한 부분을 식별합니다. 결과는 입력 및 사용된 스크립트에 따라 달라집니다. 다음 예시에서는 Google Cloud Speech-to-Text 시스템 최적화를 위해 귀중한 인사이트를 제공하는 정확도 결과에 대한 예시를 볼 수 있습니다.
- 0% WER 예시:
- 40% WER 예시:
선택사항: 정답 업데이트
다른 파일을 다시 연결하고 업데이트된 정답 파일로 3-4단계를 반복하여 기존 스크립트에 대해 다른 정답을 테스트할 수 있습니다.
직접 사용해 보기
Google Cloud를 처음 사용하는 경우 계정을 만들어 실제 시나리오에서 Speech-to-Text의 성능을 평가합니다. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
무료로 Speech-to-Text 사용해 보기