透過簡單易用的 API,將音訊轉換為文字語音轉錄內容,並將語音辨識功能整合至應用程式。
每月最多可免費轉錄及分析 60 分鐘的音訊。*新客戶最多可獲得價值 $300 美元的免費抵免額,開始試用 Speech-to-Text 和其他 Google Cloud 產品
*僅適用於使用 Speech-to-Text V1 API 處理音訊的情況。
功能
為全球使用者族群建構的多種語言支援服務。轉錄短、長,甚至是串流音訊資料。Speech-to-Text 透過新一代的通用語音模型 Chirp,為使用者提供更準確且涵蓋全球範圍的翻譯與辨識技術。Chirp 是以數百萬小時的音訊和 280 億個文句進行自我監督訓練建置而成,涵蓋 100 多種語言。
對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。透過 Speech-to-Text 使用者介面輕鬆自訂、實驗、建立及管理自訂資源。
Speech-to-Text API v2 為企業和企業客戶提供立即可用、附加的安全性和法規要求功能。資料落地可讓您透過完全區域化的服務叫用語音轉錄模型,這些完全區域化的服務運用於新加坡和比利時等 Google Cloud 區域。辨識工具資源可讓您不必使用專用的服務帳戶進行驗證和授權。您可以在 Google Cloud 控制台中輕鬆取得資源產生與語音轉錄記錄檔。Speech-to-Text API v2 提供企業級加密機制,包括客戶自行管理的加密金鑰,適用於所有資源和批次語音轉錄功能。
Speech-to-Text 使用模型調整來提高常用字詞的準確率、增加可用於語音轉錄的詞彙,以及改善環境雜訊中的語音轉錄品質。模型調整功能可讓使用者自訂 Speech-to-Text 以比其他系統建議選項更高的頻率,辨識特定字詞或詞組。例如,您可以將 Speech-to-Text 設為傾向轉錄為「weather」,而非「whether」。
API 處理完從應用程式麥克風串流輸入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。
Speech-to-Text 可以在多聲道的情況 (例如視訊會議) 下辨識出各個聲道,然後依據發言順序註記轉錄結果。
Speech-to-Text 可以處理多種環境雜訊,因此您不必另外消除噪音。
對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。
不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容,並在文字結果中過濾掉不雅字詞。
上傳您的語音資料並透過無程式碼工具轉錄。接著,即可對設定進行疊代來評估品質。
Speech-to-Text 會為語音轉錄加上正確的標點符號,例如提供逗號、問號和句號。
系統會自動預測對話中的每句話是由誰說出,您可以依據這項預測結果判斷說話者的身分。
運作方式
Speech-to-Text 有三種主要的語音辨識方法,分別是同步、非同步和串流。根據是否需要語音轉錄,這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說,您只要輸入音訊資料,然後接收文字回應。
示範
從上傳檔案或直接對著麥克風說話,快速建立音訊轉錄內容。
常見用途
如何將 Speech-to-Text 新增至應用程式
瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式,即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API,即可輕鬆快速地為您的應用程式啟用 AI。
如何將 Speech-to-Text 新增至應用程式
瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式,即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API,即可輕鬆快速地為您的應用程式啟用 AI。
使用 Google Cloud API 合成語音、轉為文字及進行翻譯
在本課程中,您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯,並使用 Natural Language AI 建立合成語音。
使用 Google Cloud API 合成語音、轉為文字及進行翻譯
在本課程中,您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯,並使用 Natural Language AI 建立合成語音。
定價
Speech-to-Text 的定價方式 | Speech-to-Text 的定價取決於 API 版本、頻道、批次方法,以及儲存空間等額外的 Google Cloud 服務費用。 | |
---|---|---|
API 版本 | 服務與功能 | 定價 |
Speech-to-Text V1 API | V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額,且每個月有 60 分鐘的配額可免費轉錄及分析音訊,不會耗用抵免額。 | $0.024 美元 每分鐘 |
Speech-to-Text V2 API | V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄,並支援客戶自行管理的加密金鑰。 | $0.016 美元 每分鐘 |
查看 Speech-to-Text 的定價詳細資料。
Speech-to-Text 的定價方式
Speech-to-Text 的定價取決於 API 版本、頻道、批次方法,以及儲存空間等額外的 Google Cloud 服務費用。
Speech-to-Text V1 API
V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額,且每個月有 60 分鐘的配額可免費轉錄及分析音訊,不會耗用抵免額。
$0.024 美元
每分鐘
Speech-to-Text V2 API
V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄,並支援客戶自行管理的加密金鑰。
$0.016 美元
每分鐘
查看 Speech-to-Text 的定價詳細資料。