本頁面說明如何使用特定的機器學習模型,向 Speech-to-Text 提出音訊轉錄要求。
轉錄模型
語音轉文字可以將輸入內容與機器學習「模型」進行比較,藉此偵測音訊剪輯內的字詞。每個模型都經過訓練,分析過數百萬名說話者的錄音內容。
Speech-to-Text 的特殊模型是使用特定來源的音訊進行訓練。當您將經過這類訓練程序的模型運用至類似的音訊資料時,就能獲得更好的結果。
下表說明可與 Speech-to-Text V2 API 搭配使用的轉錄模型。
模型名稱 | 說明 |
---|---|
chirp_3 |
根據意見回饋和體驗,使用最新一代的 Google 多語言自動語音辨識 (ASR) 專用生成模型,滿足使用者的需求。Chirp 3 的準確度和速度都比先前的 Chirp 模型更出色,並提供說話者區分和自動語言偵測功能。 |
chirp_2 |
使用新一代的通用大型語音模型 (USM),透過大型語言模型 (LLM) 技術,串流及批次處理多種語言內容,並進行轉錄和翻譯,支援多種語言。 |
telephony |
這個模型適用於電話語音 (錄音取樣率通常為 8 kHz)。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。 |
下列模型採用舊版架構,目前並未積極維護,主要用於舊版和回溯相容性。
chirp |
使用通用大型語音模型 (USM),針對各種語言內容提供最先進的非串流轉錄服務,並支援多種語言。 |
chirp_telephony |
通用大型語音模型 (USM),經過微調,適用於電話語音 (錄音取樣率通常為 8 kHz)。 |
long |
這個模型適用於任何類型的長篇內容,例如媒體或即時語音和對話。如果 video 或 default 模型不支援目標語言,建議改用這個模型。 |
short |
這個模型適用於幾秒鐘的短語音。這項功能適用於擷取指令或其他單一短句的導向語音使用案例。建議您使用這個模型,而非指令和搜尋模型。 |
telephony_short |
專為電話語音 (錄音取樣率通常為 8 kHz) 打造的 telephony 模型,可處理簡短或單字語音。適用於客戶服務、電話會議和自動資訊站應用程式中,僅有幾秒鐘的語音內容。 |
medical_conversation |
這個模型適用於醫療服務提供者 (例如醫生或護士) 與病患之間的對話。如果提供者和病患都在說話,請使用 medical_conversation 模型。系統會自動偵測每位講者說出的字詞,並自動加上標籤。 |
medical_dictation |
使用這個模型轉錄醫療專業人員口述的筆記,例如醫生口述的病患血液檢測結果筆記。 |
選擇用於音訊轉錄的模型
模型是由用於辨識要求的 Recognizer 指定。呼叫 speech/projects.locations.recognizers/create
建立辨識器,並使用 model
欄位指定模型。如要查看各語言適用的模型,請參閱「支援的語言」表格。