스크립트 작성 모델 선택

이 페이지에서는 Speech-to-Text에 대한 오디오 텍스트 변환 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.

텍스트 변환 모델

Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.

Speech-to-Text에는 특정 소스의 오디오로 학습된 특화 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.

예를 들어 Speech-to-Text에는 전화로 녹음된 음성을 인식하도록 학습된 텍스트 변환 모델이 있습니다. Speech-to-Text가 telephony 모델을 사용하여 전화 통화 음성을 텍스트로 변환하면 예를 들어 latest_long 또는 medical_dictation 모델을 사용하여 전화 통화 음성을 텍스트로 변환하는 것보다 정확하게 변환됩니다.

다음 표에서는 Speech-to-Text와 함께 사용할 수 있는 텍스트 변환 모델을 보여줍니다.

모델 이름 설명
long 미디어 또는 자발적 음성과 대화 같은 모든 종류의 긴 콘텐츠에 이 모델을 사용합니다.
short 몇 초 길이의 짧은 발화에 이 모델을 사용합니다. 명령어나 다른 단일 장면 방향 음성 사용 사례를 캡처하려는 경우에 유용합니다. 이 모델을 사용하면 첫 번째 발화가 감지되고 완료되면 서비스에서 오디오 텍스트 변환이 중지됩니다. 이 모델에서는 채널별 별도의 인식이 지원되지 않습니다. 서비스에서 멀티 채널 오디오를 수락하지만 첫 번째 채널만 처리되고 인식됩니다.
telephony 전화 통화 오디오에 가장 적합합니다. 대개 8kHz의 샘플링 레이트로 녹음된 통화를 사용합니다.
medical_dictation 의료 전문가의 음성기록(예: 환자의 혈액 검사 결과에 대한 의사의 음성기록)을 텍스트로 변환하려면 이 모델을 사용합니다.
medical_conversation 의료인(예: 의사 또는 간호사)과 환자 간의 대화에 이 모델을 사용합니다. 의료인과 환자가 모두 말하는 경우 이 모델을 사용합니다. 각 화자가 발화한 단어가 자동으로 인식되어 반환된 스크립트에 라벨이 지정됩니다.
chirp 통합 대형 음성 모델 스트리밍이 필요하지 않은 모든 사용 사례에 이 모델을 사용합니다.

오디오 스크립트 작성용 모델 선택

모델은 인식 요청에 사용된 인식기에 의해 지정됩니다. speech/projects.locations.recognizers/create를 호출하여 인식기를 만들고 model 필드를 사용하여 모델을 지정합니다. 각 언어에 대해 올바른 모델은 지원되는 언어 테이블에서 찾을 수 있습니다.