API를 사용하면 코드 없이 커스텀 Speech-to-Text 모델을 만들고 학습시켜 기존 Speech-to-Text 모델의 인식 정확도를 향상시킬 수 있습니다. 이 완전 관리형 서비스는 컴퓨팅 리소스를 자동으로 프로비저닝하고 학습 애플리케이션 코드를 실행하며 학습 작업 후 컴퓨팅 리소스를 반드시 삭제합니다. 다운스트림 애플리케이션에 유용한 완전히 미세 조정된 텍스트 스크립트 작성 모델을 얻을 수 있습니다.
머신러닝 모델과 마찬가지로 커스텀 Speech-to-Text 모델은 일반적으로 반복적이며, 기본 모델을 시작점으로 선택하고 텍스트 및 오디오 데이터 세트에 맞게 미세 조정한 후 모델의 인식 품질을 테스트합니다. 결과가 예상과 다르면 다른 데이터 조합으로 새 모델을 다시 학습시키거나 다시 테스트하거나 도메인에서 스크립트 작성에 직접 사용합니다.
시작하기 전에
Google Cloud 계정에 가입하고, Google Cloud 프로젝트를 만들고, Speech-to-Text API를 사용 설정했는지 확인합니다. Google Cloud 콘솔에서 음성으로 이동하고 Speech-to-Text API로 이동합니다. 왼쪽 탐색 메뉴의 커스텀 모델 섹션에서 작업을 수행합니다.
커스텀 모델 만들기
먼저 커스텀 Speech-to-Text 모델을 만들고 기본 모델 및 스크립트 작성 언어와 같은 매개변수를 정의합니다.
- 만들기를 클릭하여 커스텀 모델을 만듭니다.
- 표시에 사용되고 API 요청 및 Google Cloud Speech 콘솔에서 참조되는 모델 이름을 입력합니다.
- 모델의 설명을 입력합니다.
- 사용 사례에 가장 적합한 기본 모델을 선택합니다.
- 모델의 스크립트 작성 언어를 선택합니다.
- 학습을 수행할 리전을 선택합니다.
- 계속을 클릭합니다.
커스텀 Speech-to-Text 모델 작업의 정의를 완료하고 학습을 시작하려면 학습 및 검증 데이터 세트를 정의해야 합니다.
- 유효한 Cloud Storage 디렉터리 URI를 제공하여 학습 데이터 세트를 선택합니다. 오디오 및 텍스트 파일만 있고 총 오디오 길이가 학습 데이터 세트 요구사항을 따르는지 확인합니다.
- 유효한 Cloud Storage 디렉터리 URI를 제공하여 검증 데이터 세트를 선택합니다. 오디오 및 텍스트 파일만 있고 총 오디오 길이가 검증 데이터 세트 요구사항을 따르는지 확인합니다.
- 만들기를 클릭하여 학습 프로세스를 시작합니다.
오디오 시간의 색인이 충분히 생성되지 않거나 파일이 가이드라인을 준수하지 않으면 학습 작업이 실패합니다.
학습 작업은 Google 시스템의 다른 작업 후속으로 큐에 추가될 수 있으며 데이터 세트 크기에 따라 모델 학습에 몇 시간에서 며칠이 걸릴 수 있습니다. 모델 학습 후에는 상태가 활성으로 표시됩니다.
커스텀 모델 삭제
시작하기 전에 엔드포인트를 통해 커스텀 Speech-to-Text 모델로 라우팅되는 트래픽이 없는지 확인합니다. 모델을 삭제하면 요청 처리가 중지되기 때문입니다.
- 커스텀 모델 섹션의 모델 탭으로 이동합니다.
- 옵션을 클릭하여 펼친 후 삭제를 클릭합니다. 잠시 후 커스텀 Speech-to-Text 모델이 모든 엔드포인트와 함께 삭제되고 더 이상 트래픽을 처리하지 않습니다.
커스텀 모델 나열
커스텀 모델 섹션에서 모델을 선택하여 학습, 활성, 삭제 중인 모델을 포함한 모든 커스텀 Speech-to-Text 모델을 나열할 수도 있습니다.
다음 단계
다음 리소스를 따라 애플리케이션에서 커스텀 음성 모델을 활용하세요.