정확도 측정 및 개선

이 빠른 시작에서는 오디오 데이터에 대해 Google Cloud Speech-to-Text의 정확도를 측정하고 개선하는 방법을 알아봅니다. 또한 스크립트 작성 정확도를 개선하기 위해 API에서 사용할 수 있는 다양한 모델 및 옵션도 살펴봅니다. Google Cloud 콘솔의 Speech-to-Text UI와 정답 파일을 사용하여 정확도를 측정하고 Speech-to-Text 시스템에 대한 인사이트를 얻는 방법을 살펴봅니다.

머신러닝(ML) 시스템은 본질적으로 부정확성을 포함할 수 밖에 없으며, Speech-to-Text 시스템으로도 알려진 자동 음성 인식(ASR) 시스템도 예외가 아닙니다. 올바른 정확도 측정은 오디오 녹음 품질과 음향 조건의 차이가 정확도에 큰 영향을 줄 수 있기 때문에 특정 사용 사례 및 평가 대상 시스템과 긴밀하게 결합되어 있습니다. 따라서 모든 고객 및 사용 사례를 위한 하나의 정확도 점수란 실질적으로 효과가 없습니다. 중요한 프로덕션 기반 시스템 성능에서 ASR 시스템의 성능을 안정적으로 보장하기 위해서는 포괄적인 시스템 상황에서 Speech-to-Text의 성능 방식을 이해하는 것이 필요합니다.

이 빠른 시작 가이드에서는 비교를 위해 단어 오류율(WER)이라는 업계 표준 방법을 사용합니다. WER의 계산 및 해석 방법에 대한 자세한 내용은 음성 정확도 측정 및 개선을 참조하세요. 그럼 시작하겠습니다.

Speech-to-Text 콘솔 시작하기

Google Cloud 계정에 가입하고 프로젝트를 만들었는지 확인합니다. 1. Google Cloud 콘솔에서 음성으로 이동하고 Speech-to-Text UI로 이동합니다. 2. 사용 사례와 ASR 시스템 사용 방법을 음향적으로 나타내는 오디오 파일을 사용하여 빠른 시작 안내에 따라 Speech-to-Text를 사용하여 첫 번째 스크립트 작성을 수행합니다.

스크립트 작성 정확도 계산

  1. 오디오 파일을 성공적으로 스크립트로 작성한 후 Transcription Accuracy 섹션을 사용합니다. 이 섹션은 스크립트 작성에 대해 정확도가 계산될 때까지 빈 상태로 유지됩니다.
  2. 섹션 상단에서 정답 업로드 버튼을 사용하여 정확도 계산을 시작할 수 있습니다.
    스크립트 작성 정확도 섹션과 정답 업로드 버튼을 보여주는 Speech-to-Text 스크립트 작성 세부정보 페이지의 스크린샷입니다.

정답 지정

  1. 스크립트 작성의 정확도를 계산하기 위해 정답 파일을 제공합니다. 이것은 .txt 또는 .csv 파일이며, 비교를 위해 올바르거나 예상되는 스크립트가 포함된 일반적으로 사람이 만든 스크립트 파일입니다.
  2. gs://cloud-samples-data/speech/brooklyn_bridge.wav를 예시로 사용합니다. 정답 파일에는 How old is the Brooklyn Bridge가 포함되어 있습니다. 정답 파일이 없으면 스크립트를 텍스트 형식으로 다운로드합니다. 필요에 따라 스크립트 파일을 수정합니다. 스크립트 파일을 정답 파일로 업로드합니다.
  3. 업로드 또는 기존 Cloud Storage 파일을 사용하여 정답 파일을 지정하고 저장을 클릭합니다.
    정답 파일 선택 또는 업로드를 보여주는 Speech-to-Text 스크립트 만들기 페이지의 스크린샷입니다.

정답 확인

  1. 저장을 클릭하면 지정된 정답 파일이 올바른지 확인하는 메시지가 표시됩니다. 정확도 측정항목에 직접적인 영향을 주므로, 정답 파일이 올바른 스크립트를 정확하게 나타내는지 확인합니다.
  2. 확인을 클릭하여 계속 진행합니다.
    업로드된 정답 파일의 내용을 보여주는 Speech-to-Text 스크립트 페이지의 스크린샷입니다.

평가 결과 검토

  1. 입력 데이터의 크기에 따라 평가 프로세스에 시간이 걸릴 수 있고, 완료되면 결과가 표시됩니다.
  2. 평가가 완료되면 다음 섹션이 표시됩니다.
    • 프로세스에 사용된 스크립트 정확도 테이블, 정확도 측정항목, 정답 파일 링크
    • 세분화된 정확도 측정항목 및 강조 표시와 함께 정답 파일과 비교하기 위한 전환 버튼이 포함된 Transcription
  3. 정확도 결과를 검토 및 분석하여 사용된 Speech-to-Text 인식기 성능을 파악하고 개선이 필요한 부분을 식별합니다. 결과는 입력 및 사용된 스크립트에 따라 달라집니다. 다음 예시에서는 Google Cloud Speech-to-Text 시스템 최적화를 위해 귀중한 인사이트를 제공하는 정확도 결과에 대한 예시를 볼 수 있습니다.
    • 0% WER 예시:
      단어 오류율이 0%인 제공된 스크립트에 대해 계산된 평가 결과를 보여주는 Speech-to-Text 스크립트 정확도 페이지의 스크린샷입니다.
    • 40% WER 예시:
      단어 오류율이 40%인 제공된 스크립트에 대해 계산된 평가 결과를 보여주는 Speech-to-Text 스크립트 정확도 페이지의 스크린샷입니다.

선택사항: 정답 업데이트

다른 파일을 다시 연결하고 업데이트된 정답 파일로 3-4단계를 반복하여 기존 스크립트에 대해 다른 정답을 테스트할 수 있습니다.

직접 사용해 보기

Google Cloud를 처음 사용하는 경우 계정을 만들어 실제 시나리오에서 Speech-to-Text의 성능을 평가합니다. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

무료로 Speech-to-Text 사용해 보기