Cloud Speech-to-Text

透過機器學習技術將語音轉為文字。

免費試用

查看這項產品的說明文件

強大的語音辨識功能

有了 Google Cloud Speech-to-Text,開發人員就能透過這個簡單好用的 API,利用強大的類神經網路模型,將音訊轉換為文字。這個 API 可辨識 120 種語言和方言,滿足全球各地使用者的需求。您可以啟用語音指令和控制功能、將客服中心的語音音訊轉錄為文字,以及用於其他用途。此外,借助 Google 的機器學習技術,這個 API 也能處理即時串流或預先錄製的音訊。

speech-api-lead

立即將語音轉換成文字

採用機器學習技術

利用最先進的深度學習類神經網路演算法,提供無與倫比的語音辨識準確度。隨著 Google 持續改善自家產品使用的內部語音辨識技術,長期下來準確率也會越來越高。

機器學習

可辨識 120 種語言和方言

Cloud Speech-to-Text 可辨識 120 種語言和方言,滿足全球各地使用者的需求。另外,無論是何種語言,都可以過濾掉文字轉換結果中的不當內容。

語言選單

自動識別口語內容

Cloud Speech-to-Text 可以識別出說話時所使用的語言 (最多四種語言),因此可應用於語音搜尋 (例如「巴黎的氣溫幾度?」),以及下達語音指令 (例如「調高音量」)。

口語

將語音即時轉錄為文字,而且不限音訊長度

Cloud Speech-to-Text 可以串流處理文字結果。這個 API 能夠即時辨識串流音訊的語音,或是使用者當下所說的話,然後立即傳回辨識出的文字。 此外,Cloud Speech-to-Text 也可以處理檔案中儲存的音訊,並傳回辨識出的文字。無論音訊長度為何,都能順利分析。

時鐘

自動轉錄專有名詞,並套用文句內容應有的格式

Cloud Speech-to-Text 經過特別設計,能夠辨識現實生活中會出現的語彙,協助您正確無誤地轉錄各種專有名詞 (例如人名、地名),轉錄出來的文字也符合正確的語言格式 (例如日期、電話號碼)。與整部牛津英語辭典中的單詞數量相比,Google 支援的專有名詞數量超過 10 倍。

聲波

針對您的用途量身打造,提供多種預先建構的模型

Cloud Speech-to-Text 提供多種預先建構的語音辨識模型,可讓您根據使用案例 (例如語音指令) 調整至最佳設定。舉例來說,我們預先建構的影片語音轉錄模型採用與 YouTube 字幕功能類似的機器學習技術,很適合用於為影片和/或多人說話的語音內容建立索引或加上字幕。

語音模型
型號 說明
command_and_search 適用於短語查詢,例如語音指令或語音搜尋。
phone_call 適用於電話語音 (錄音取樣率通常為 8khz)。
影片 適用於影片中的音訊,或是有多人說話的音訊。在理想情況下,錄音的取樣率為 16khz 以上。提醒您,這是進階級模型,費用比一般費率更高。
default 適用於不符合上述特定音訊模型的音訊,例如長度較長的音訊。理想情況下為高傳真音訊,且錄音取樣率為 16khz 以上。

功能

自動語音辨識
採用深度學習類神經網路技術的自動語音辨識 (ASR),為您的應用程式提供增強功能,例如語音搜尋或語音內容轉錄等。
包含全球詞彙
詞彙量豐富,能夠辨識 120 種語言和方言。
自訂語音辨識結果
您可以指定多達 5,000 個使用者可能會說出的單字或詞彙 (例如產品名稱),為貴企業手動自訂語音辨識結果。這項功能也能將口述數字自動轉錄為地址、年分或貨幣金額,或是依據情境轉錄其他內容。
支援即時串流或預先錄製的音訊內容
音訊輸入內容可以透過應用程式的麥克風加以串流,或是以預先錄製的音訊檔案傳送 (內嵌或經由 Google Cloud Storage 均可)。支援的音訊編碼格式有很多種,包含 FLAC、AMR、PCMU 和 Linear-16。
自動偵測語言 (Beta 版)
如果您需要支援多語言環境,現在只要指定二至四種語言代碼,Cloud Speech-to-Text 就會正確識別內容語言,並提供文字轉錄結果。
具備雜訊處理功能
能夠處理各種環境雜訊,不必另外消除噪音。
過濾不當內容
針對部分語言過濾文字轉換結果中的不當內容。
自動加上標點符號 (Beta 版)
透過機器學習技術為轉錄內容加上正確的標點符號,像是逗號、問號和句號等。
多種模型供您選擇
您可以選擇使用四種預先建構的模型:預設、語音指令及搜尋、電話和影片語音轉錄。
說話者分段標記 (Beta 版)
協助您判斷說話者是誰,說了哪些內容:您現在可以自動預測對話中每一句話的說話者。
多頻道辨識
在一段有多位參與者的錄音內容裡,如果每位參與者的聲音是從不同的頻道錄製 (例如,來自電話的兩個頻道,或是來自視訊會議的四個頻道),Cloud Speech-to-Text 可以辨識出各個頻道,然後以實際的發言順序標註轉錄結果。

定價

使用 Cloud Speech-to-Text 前 60 分鐘免費,之後系統將依據處理的音訊長度,以 15 秒為單位向您收費。詳情請參閱定價指南

功能 標準級模型 (強化版通話和影片模型以外的所有模型) 進階級模型* (強化版通話和影片模型)
0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下 0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下
語音辨識 (未啟用資料記錄功能 - 預設值) 免費 每 15 秒 $0.006 美元** 免費 每 15 秒 $0.009 美元**
語音辨識 (已啟用資料記錄功能) 免費 每 15 秒 $0.004 美元** 免費 每 15 秒 $0.006 美元**

本計價方式適用於手機、平板電腦、筆記型電腦和桌上型電腦等個人系統上的應用情況。如要在汽車、電視、家電用品或喇叭等嵌入式裝置上使用 Cloud Speech-to-Text API,請與我們聯絡以取得使用許可並瞭解計價方式。

* 目前僅支援英文 (美國)

** 每項要求的執行時間均會進位至最接近的 15 秒倍數。舉例來說,假設您向系統傳送三項各含 7 秒音訊內容的要求 (標準級模型),系統便會向您收取 45 秒音訊內容 (3 × 15 秒) 共 $0.018 美元的費用。 在計算秒數時,如果您的音訊長度並非整數秒數,系統也會將其進位至最接近的 15 秒倍數。也就是說,系統會將 15.14 秒計為 30 秒,並向您收取 30 秒的費用。

負載平衡圖示

本頁所列產品或功能仍在 Beta 版測試階段。如要進一步瞭解產品推出的各個階段,請參閱這個網頁

Cloud AI 產品符合這個網頁列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。