本頁面由 Cloud Translation API 翻譯而成。

選取語音轉錄模型

本頁面說明如何使用特定的機器學習模型，向 Speech-to-Text 提出音訊轉錄要求。

轉錄模型

語音轉文字可以將輸入內容與機器學習「模型」進行比較，藉此偵測音訊剪輯內的字詞。每個模型都經過訓練，分析過數百萬名說話者的錄音內容。

Speech-to-Text 的特殊模型是使用特定來源的音訊進行訓練。當您將經過這類訓練程序的模型運用至類似的音訊資料時，就能獲得更好的結果。

下表說明可與 Speech-to-Text V2 API 搭配使用的轉錄模型。

模型名稱	說明
`chirp_3`	根據意見回饋和體驗，使用最新一代的 Google 多語言自動語音辨識 (ASR) 專用生成模型，滿足使用者的需求。Chirp 3 的準確度和速度都比先前的 Chirp 模型更出色，並提供說話者區分和自動語言偵測功能。
`chirp_2`	使用新一代的通用大型語音模型 (USM)，透過大型語言模型 (LLM) 技術，串流及批次處理多種語言內容，並進行轉錄和翻譯，支援多種語言。
`telephony`	這個模型適用於電話語音 (錄音取樣率通常為 8 kHz)。非常適合用於客戶服務、電話會議和自動化資訊站應用程式。

下列模型採用舊版架構，目前並未積極維護，主要用於舊版和回溯相容性。

`chirp`	使用通用大型語音模型 (USM)，針對各種語言內容提供最先進的非串流轉錄服務，並支援多種語言。
`chirp_telephony`	通用大型語音模型 (USM)，經過微調，適用於電話語音 (錄音取樣率通常為 8 kHz)。
`long`	這個模型適用於任何類型的長篇內容，例如媒體或即時語音和對話。如果 `video` 或 `default` 模型不支援目標語言，建議改用這個模型。
`short`	這個模型適用於幾秒鐘的短語音。這項功能適用於擷取指令或其他單一短句的導向語音使用案例。建議您使用這個模型，而非指令和搜尋模型。
`telephony_short`	專為電話語音 (錄音取樣率通常為 8 kHz) 打造的 `telephony` 模型，可處理簡短或單字語音。適用於客戶服務、電話會議和自動資訊站應用程式中，僅有幾秒鐘的語音內容。
`medical_conversation`	這個模型適用於醫療服務提供者 (例如醫生或護士) 與病患之間的對話。如果提供者和病患都在說話，請使用 `medical_conversation` 模型。系統會自動偵測每位講者說出的字詞，並自動加上標籤。
`medical_dictation`	使用這個模型轉錄醫療專業人員口述的筆記，例如醫生口述的病患血液檢測結果筆記。

模型是由用於辨識要求的 Recognizer 指定。呼叫 speech/projects.locations.recognizers/create 建立辨識器，並使用 model 欄位指定模型。如要查看各語言適用的模型，請參閱「支援的語言」表格。