Cloud Speech-to-Text 미세 조정

개요

Speech-to-Text 미세 조정 을 사용하면 고유한 오디오 및 텍스트 데이터를 사용해 기존 음성 모델을 맞춤 설정하여 음성 인식 서비스의 정확성을 높일 수 있습니다.

음성 모델 미세 조정은 기본 음성 모델을 보강하여 사이렌 소리, 큰 소음, 음악 또는 기타 대화 같은 과도한 백그라운드 노이즈, 고객별 제품 이름, 고유 용어 및 억양 기호 등의 고유 어휘의 스크립트 작성을 위한 인식을 개선하는 데 사용할 수 있습니다.

Google Cloud 콘솔 및 API에서 액세스할 수 있는 음성 모델 미세 조정으로 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성을 학습 세트로 사용하지 않고 오디오 조건을 대표하는 오디오 데이터만 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.

다음 단계

애플리케이션에서 음성 모델 미세 조정을 활용하려면 아래 리소스를 따라 모델을 배포하세요.

커스텀 음성 모델 배포.