스크립트 작성 모델 선택

이 페이지에서는 Speech-to-Text에 대한 오디오 스크립트 작성 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.

텍스트 변환 모델

Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.

Speech-to-Text에는 특정 소스의 오디오로 학습된 특화 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.

예를 들어 Speech-to-Text에는 전화로 녹음된 음성을 인식하도록 학습된 스크립트 작성 모델이 있습니다. Speech-to-Text가 telephony 모델을 사용하여 전화 오디오를 텍스트로 변환하면 short 또는 long 모델을 사용하여 전화 오디오를 텍스트로 변환하는 것보다 정확하게 변환됩니다.

다음 표에서는 Speech-to-Text와 함께 사용할 수 있는 스크립트 작성 모델을 보여줍니다.

모델 이름 설명
long 미디어 또는 자발적 음성과 대화 같은 모든 유형의 긴 콘텐츠에 이 모델을 사용합니다. 특히 대상 언어에서 사용할 수 없는 경우 '동영상' 또는 '기본' 모델 대신 이 모델을 사용하는 것이 좋습니다.
short 몇 초 길이의 짧은 발화에 이 모델을 사용합니다. 명령어 또는 다른 짧고 집중적인 음성 사용 사례를 캡처하려는 경우에 유용합니다. 명령어 및 검색 모델 대신 이 모델을 사용하는 것이 좋습니다.
telephony 일반적으로 8kHz 샘플링 레이트로 녹화된 오디오 전화 통화에서 시작되는 오디오에 이 모델을 사용합니다. 고객 서비스, 화상회의, 자동 키오스크 애플리케이션에 이상적입니다.
medical_dictation 의료 전문가의 음성기록(예: 환자의 혈액 검사 결과에 대한 의사의 음성기록)을 텍스트로 변환하려면 이 모델을 사용합니다.
medical_conversation 의료인(예: 의사 또는 간호사)과 환자 간의 대화에 이 모델을 사용합니다. 의료인과 환자가 모두 말하는 경우 `medical_conversation` 모델을 사용합니다. 각 화자가 발화한 단어가 자동으로 인식되고 자동으로 라벨로 지정됩니다.
chirp_2 다양한 언어 콘텐츠와 다국어 기능의 스트리밍 및 일괄 처리, 스크립트 작성 및 번역을 위해 대규모 언어 모델 기술로 지원되는 차세대 범용 음성 모델 (USM)을 사용하세요.
chirp_telephony 범용 대규모 음성 모델(USM)은 일반적으로 8kHz 샘플링 레이트로 녹음된 전화 통화에서 시작되는 오디오에 맞게 미세 조정되어 있습니다.
chirp 다양한 언어 관련 콘텐츠 및 다국어 기능에서 최첨단 비스트리밍 스크립트를 얻으려면 Google의 범용 대규모 음성 모델(USM)을 사용합니다.

오디오 스크립트 작성용 모델 선택

모델은 인식 요청에 사용된 인식기에 의해 지정됩니다. speech/projects.locations.recognizers/create를 호출하여 인식기를 만들고 model 필드를 사용하여 모델을 지정합니다. 각 언어에 대해 올바른 모델은 지원되는 언어 테이블에서 찾을 수 있습니다.