Cloud Speech API

語音轉文字採用機器學習技術

免費試用 查看說明文件

強大的語音辨識功能

Google Cloud Speech API 讓開發人員透過易使用的 API 中的強大神經網路模型,將聲音轉換成文字。這個 API 能辨識超過 80 種語言和方言,可支援全球的使用者。您可以將使用者透過應用程式麥克風擷取的語音轉換成文字、啟用語音命令控制功能,或是轉譯音訊檔等等。利用 Google 自家產品所採用的技術,辨識在請求中上傳的音訊,並整合搭配使用 Google Cloud Storage 中的音訊儲存空間。

speech-api-lead

採用機器學習技術

利用最先進的深度學習神經網路演算法,為使用者的語音辨識提供無以倫比的正確性。 隨著 Google 改善 Google 產品使用的內部語音辨識技術,Speech API 的正確性會隨之提高

超過 80 種語言

Speech API 能辨識超過 80 種語言和方言,以支援全球的使用者。 您也可以過濾轉換文字結果中的不當內容

即時傳回文字結果

Speech API 可以串流處理文字結果,辨識完部分結果即會傳回, 在說話的同時就會立即顯示已辨識的文字。Speech API 也可以傳回音訊檔案的辨識文字。

在吵雜環境中也能準確辨識

在將音訊傳送到 Speech API 之前,不需要先做進階訊號處理或噪音消除。這項服務可以成功處理來自各種環境的吵雜音訊

情境感知辨識

只要在每次的 API 呼叫提供一組獨立的文字提示,就能讓語音辨識越來越貼近使用情境。 在裝置/應用程式控制的情況下特別實用。

適用於任何裝置的應用程式

Speech API 支援任何可以傳送 REST 或 gRPC 要求的裝置,包括手機、 電腦、平板電腦及 IoT 裝置 (例如汽車、電視、喇叭)。

Speech API 的特色

語音轉文字採用機器學習技術

自動語音辨識
採用深度學習神經網路技術的自動語音辨識 (ASR),為您的應用程式提供增強功能 (如語音搜尋或語音轉寫等)。
包含全球詞彙
具備豐富的詞彙,能夠辨識超過 80 種語言和方言。
串流辨識
使用者還在說話的同時就能傳回辨識結果。
文字提示
提供一組可能說出的文字和句子,即可針對特定情境自訂語音辨識。 在新增自訂文字和名稱到詞彙,以及語音操控的情況下,此功能特別實用。
即時或預先錄製的音訊支援
音訊輸入可透過應用程式的麥克風擷取,或是從預先錄製的音訊檔案傳送。 支援多種音訊編碼,包括 FLAC、AMR、PCMU 及 Linear-16。
對抗雜訊
能夠處理各種環境雜訊,而不需要額外消除噪音。
不當內容篩選
針對部分語言的文字結果篩選不當內容。
整合的 API
可在要求中上傳音訊檔案,或是與 Google Cloud Storage 整合。

Cloud Speech API 定價

強大的語音辨識功能

Cloud Speech API 在 60 分鐘的免費版之後,會以每 15 秒的音訊處理為單位 收費。如需詳細資訊,請參閱定價指南

每月使用量 每 15 秒價格*
0 - 60 分鐘 免費
61 - 1,000,000 分鐘** $0.006 美元

* 此定價適用於個人系統 (例如手機、平板電腦、膝上型電腦、桌上型電腦) 的應用程式。如果要在嵌入式裝置 (如汽車、電視、家電用品或喇叭) 上使用 Speech API,請 與我們聯絡 以取得許可和定價。

** 每月使用量上限為 1 百萬分鐘

隨時隨地監控你的資源

下載 Google Cloud Console 應用程式,管理專案更加得心應手。