모델 학습 및 관리

API를 사용하면 코드 없이 커스텀 Speech-to-Text 모델을 만들고 학습시켜 기존 Speech-to-Text 모델의 인식 정확도를 향상시킬 수 있습니다. 이 완전 관리형 서비스는 컴퓨팅 리소스를 자동으로 프로비저닝하고 학습 애플리케이션 코드를 실행하며 학습 작업 후 컴퓨팅 리소스를 반드시 삭제합니다. 다운스트림 애플리케이션에 유용한 완전히 미세 조정된 텍스트 스크립트 작성 모델을 얻을 수 있습니다.

머신러닝 모델과 마찬가지로 커스텀 Speech-to-Text 모델은 일반적으로 반복적이며, 기본 모델을 시작점으로 선택하고 텍스트 및 오디오 데이터 세트에 맞게 미세 조정한 후 모델의 인식 품질을 테스트합니다. 결과가 예상과 다르면 다른 데이터 조합으로 새 모델을 다시 학습시키거나 다시 테스트하거나 도메인에서 스크립트 작성에 직접 사용합니다.

시작하기 전에

Google Cloud 계정에 가입하고, Google Cloud 프로젝트를 만들고, Speech-to-Text API를 사용 설정했는지 확인합니다. Google Cloud 콘솔에서 음성으로 이동하고 Speech-to-Text API로 이동합니다. 왼쪽 탐색 메뉴의 커스텀 모델 섹션에서 작업을 수행합니다.

커스텀 모델 만들기

먼저 커스텀 Speech-to-Text 모델을 만들고 기본 모델 및 스크립트 작성 언어와 같은 매개변수를 정의합니다.

  1. 만들기를 클릭하여 커스텀 모델을 만듭니다.
  2. 표시에 사용되고 API 요청 및 Google Cloud Speech 콘솔에서 참조되는 모델 이름을 입력합니다.
  3. 모델의 설명을 입력합니다.
  4. 사용 사례에 가장 적합한 기본 모델을 선택합니다.
  5. 모델의 스크립트 작성 언어를 선택합니다.
  6. 학습을 수행할 리전을 선택합니다.
  7. 계속을 클릭합니다.
커스텀 모델에 필요한 필드를 보여주는 커스텀 Speech-to-Text 모델 만들기 워크플로의 스크린샷

커스텀 Speech-to-Text 모델 작업의 정의를 완료하고 학습을 시작하려면 학습 및 검증 데이터 세트를 정의해야 합니다.

  1. 유효한 Cloud Storage 디렉터리 URI를 제공하여 학습 데이터 세트를 선택합니다. 오디오 및 텍스트 파일만 있고 총 오디오 길이가 학습 데이터 세트 요구사항을 따르는지 확인합니다.
  2. 유효한 Cloud Storage 디렉터리 URI를 제공하여 검증 데이터 세트를 선택합니다. 오디오 및 텍스트 파일만 있고 총 오디오 길이가 검증 데이터 세트 요구사항을 따르는지 확인합니다.
  3. 만들기를 클릭하여 학습 프로세스를 시작합니다.

오디오 시간의 색인이 충분히 생성되지 않거나 파일이 가이드라인을 준수하지 않으면 학습 작업이 실패합니다.

커스텀 모델의 학습 및 검증 데이터 세트에 필요한 필드를 보여주는 커스텀 Speech-to-Text 모델 생성 워크플로의 스크린샷

학습 작업은 Google 시스템의 다른 작업 후속으로 큐에 추가될 수 있으며 데이터 세트 크기에 따라 모델 학습에 몇 시간에서 며칠이 걸릴 수 있습니다. 모델 학습 후에는 상태가 활성으로 표시됩니다.

커스텀 모델 삭제

시작하기 전에 엔드포인트를 통해 커스텀 Speech-to-Text 모델로 라우팅되는 트래픽이 없는지 확인합니다. 모델을 삭제하면 요청 처리가 중지되기 때문입니다.

  1. 커스텀 모델 섹션의 모델 탭으로 이동합니다.
  2. 옵션을 클릭하여 펼친 후 삭제를 클릭합니다. 잠시 후 커스텀 Speech-to-Text 모델이 모든 엔드포인트와 함께 삭제되고 더 이상 트래픽을 처리하지 않습니다.

커스텀 모델 나열

커스텀 모델 섹션에서 모델을 선택하여 학습, 활성, 삭제 중인 모델을 포함한 모든 커스텀 Speech-to-Text 모델을 나열할 수도 있습니다.

이미 만든 모든 커스텀 모델이 있는 테이블을 보여주는 커스텀 Speech-to-Text 모델 목록 워크플로의 스크린샷

다음 단계

다음 리소스를 따라 애플리케이션에서 커스텀 음성 모델을 활용하세요.