選取語音轉錄模型

本頁面說明如何使用特定的機器學習模型,向 Speech-to-Text 提出音訊轉錄要求。

轉錄模型

語音轉文字可以將輸入內容與機器學習「模型」進行比較,藉此偵測音訊剪輯內的字詞。每個模型都經過訓練,分析過數百萬名說話者的錄音內容。

Speech-to-Text 的特殊模型是使用特定來源的音訊進行訓練。當您將經過這類訓練程序的模型運用至類似的音訊資料時,就能獲得更好的結果。

下表說明可與 Speech-to-Text V2 API 搭配使用的轉錄模型。

模型名稱 說明
chirp_3 根據意見回饋和體驗,使用最新一代的 Google 多語言自動語音辨識 (ASR) 專用生成模型,滿足使用者的需求。Chirp 3 的準確度和速度都比先前的 Chirp 模型更出色,並提供說話者區分和自動語言偵測功能。
chirp_2 使用新一代的通用大型語音模型 (USM),透過大型語言模型 (LLM) 技術,串流及批次處理多種語言內容,並進行轉錄和翻譯,支援多種語言。
telephony 這個模型適用於電話語音 (錄音取樣率通常為 8 kHz)。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。

下列模型採用舊版架構,目前並未積極維護,主要用於舊版和回溯相容性。

chirp 使用通用大型語音模型 (USM),針對各種語言內容提供最先進的非串流轉錄服務,並支援多種語言。
chirp_telephony 通用大型語音模型 (USM),經過微調,適用於電話語音 (錄音取樣率通常為 8 kHz)。
long 這個模型適用於任何類型的長篇內容,例如媒體或即時語音和對話。如果 videodefault 模型不支援目標語言,建議改用這個模型。
short 這個模型適用於幾秒鐘的短語音。這項功能適用於擷取指令或其他單一短句的導向語音使用案例。建議您使用這個模型,而非指令和搜尋模型。
telephony_short 專為電話語音 (錄音取樣率通常為 8 kHz) 打造的 telephony 模型,可處理簡短或單字語音。適用於客戶服務、電話會議和自動資訊站應用程式中,僅有幾秒鐘的語音內容。
medical_conversation 這個模型適用於醫療服務提供者 (例如醫生或護士) 與病患之間的對話。如果提供者和病患都在說話,請使用 medical_conversation 模型。系統會自動偵測每位講者說出的字詞,並自動加上標籤。
medical_dictation 使用這個模型轉錄醫療專業人員口述的筆記,例如醫生口述的病患血液檢測結果筆記。

選擇用於音訊轉錄的模型

模型是由用於辨識要求的 Recognizer 指定。呼叫 speech/projects.locations.recognizers/create 建立辨識器,並使用 model 欄位指定模型。如要查看各語言適用的模型,請參閱「支援的語言」表格。