Cloud Speech-to-Text

採用機器學習技術將語音轉換為文字,不論音訊長短都適用!

免費試用

查看這項產品的說明文件

強大的語音辨識功能

有了 Google Cloud Speech-to-Text,開發人員就能透過這個簡單好用的 API,利用強大的類神經網路模型,將音訊轉換為文字。這個 API 可辨識 120 種語言和方言,滿足全球各地使用者的需求。您可以啟用語音指令和控制功能、將客服中心的語音音訊轉錄為文字,以及用於其他用途。此外,借助 Google 的機器學習技術,這個 API 也能處理即時串流或預先錄製的音訊。

speech-api-lead

立即將語音轉換成文字 *

選取語言並點選 [立即開始],就能開始錄音

* 這個示範是以使用 Cloud Text-to-Speech API 建構的範例應用程式/UI 為基礎

採用機器學習技術

將最先進的深度學習類神經網路演算法應用於音訊內容,提供無與倫比的語音辨識準確度。隨著 Google 持續改善自家產品使用的內部語音辨識技術,長期下來 Cloud Speech-to-Text 的準確率也會越來越高。

可辨識 120 種語言和方言

Cloud Speech-to-Text 可辨識 120 種語言和方言,滿足全球各地使用者的需求。另外,無論是何種語言,都可以過濾掉文字轉換結果中的不當內容。

自動識別口語內容

Cloud Speech-to-Text 可以識別出說話時所使用的語言 (僅限四種語言),因此可應用於語音搜尋 (例如「巴黎的氣溫幾度?」),以及下達語音指令 (例如「調高音量」)。

將語音即時轉錄為文字,而且不限音訊長度

Cloud Speech-to-Text 可以串流處理文字結果。這個 API 能夠即時辨識串流音訊的語音,或是使用者當下所說的話,然後立即傳回辨識出的文字。 此外,Cloud Speech-to-Text 也可以處理檔案中儲存的音訊,並傳回辨識出的文字。無論音訊長度為何,它都能順利分析。

自動轉錄專有名詞,並套用文句內容應有的格式

Cloud Speech-to-Text 經過特別設計,能夠辨識現實生活中會出現的語彙,協助您正確無誤地轉錄各種專有名詞 (例如 Sundar Pichai),轉錄出來的文字也符合正確的語言格式 (例如日期、電話號碼)。與整部牛津英語辭典中的單詞數量相比,Google 支援的專有名詞數量超過 10 倍。

針對您的用途量身打造,提供多種預先建構的模型

Cloud Speech-to-Text 提供多種預先建構的語音辨識模型,可讓您根據使用案例 (例如語音指令) 調整至最佳設定。舉例來說,我們預先建構的影片語音轉錄模型採用與 YouTube 字幕功能類似的機器學習技術,很適合用於為影片和/或多人說話的語音內容建立索引或加上字幕。

模型 說明
command_and_search 適用於短語查詢,例如語音指令或語音搜尋。
phone_call 適用於電話語音 (錄音取樣率通常為 8 khz)。
video 適用於影片中的音訊,或是有多人說話的音訊。在理想情況下,錄音的取樣率為 16khz 以上。提醒您,這是進階級模型,費用比一般費率更高。
default 適用於不符合上述特定音訊模型的音訊,例如長度較長的音訊。理想情況下為高傳真音訊,且錄音取樣率為 16 khz 以上。

Cloud Speech-to-Text 功能

透過機器學習技術將語音轉為文字。

自動語音辨識
自動語音辨識 (ASR) 採用深度學習類神經網路技術,可為您的應用程式提供語音搜尋或語音內容轉錄等功能。
包含全球詞彙
詞彙量豐富,能夠辨識 120 種語言和方言。
自訂語音辨識結果
您可以指定多達 5,000 個使用者可能會說出的單字或詞彙 (例如產品名稱),為貴企業手動自訂語音辨識結果。這項功能也能將口述數字自動轉錄為地址、年分或貨幣金額,或是依據情境轉錄其他內容。
支援即時串流或預先錄製的音訊內容
音訊輸入內容可以透過應用程式的麥克風加以串流,或是以預先錄製的音訊檔案傳送 (內嵌或經由 Google Cloud Storage 均可)。支援的音訊編碼格式有很多種,包含 FLAC、AMR、PCMU 和 Linear-16。
自動偵測語言 Beta 版
如果您需要支援多語言環境,現在只要指定二至四種語言代碼,Cloud Speech-to-Text 就會正確識別內容語言,並提供文字轉錄結果。
具備雜訊處理功能
能夠處理各種環境雜訊,不必另外消除噪音。
過濾不當內容
針對部分語言過濾文字轉換結果中的不當內容。
自動加上標點符號 Beta 版
透過機器學習技術為轉錄內容加上正確的標點符號,像是逗號、問號和句號等。
多種模型任您選擇
您可以選擇使用四種預先建構的模型:預設、語音指令及搜尋、電話和影片語音轉錄。
說話者分段標記 Beta 版
協助您判斷誰說了哪些內容:您現在可以自動預測對話中每一句話的說話者。
多頻道辨識
在一段有多位參與者的錄音內容裡,如果每位參與者的聲音是從不同的頻道錄製 (例如,來自電話的兩個頻道,或是來自視訊會議的四個頻道),Cloud Speech-to-Text 可以辨識出各個頻道,然後以實際的發言順序標註轉錄結果。

Cloud Speech-to-Text API 計價方式

強大的語音辨識功能。

前 60 分鐘免費,之後系統將依據 Cloud Speech-to-Text 處理的音訊長度,以 15 秒為單位向您收費。詳情請參閱定價指南

功能 標準級模型 (強化版通話和影片模型以外的所有模型) 進階級模型* (強化版通話和影片模型)
0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下 0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下
語音辨識 (未啟用資料記錄功能 - 預設值) 免費 每 15 秒 $0.006 美元** 免費 每 15 秒 $0.009 美元**
語音辨識 (已啟用資料記錄功能) 免費 每 15 秒 $0.004 美元** 免費 每 15 秒 $0.006 美元**

本計價方式適用於手機、平板電腦、筆記型電腦和桌上型電腦等個人系統上的應用情況。如果您要在汽車、電視、家電用品或喇叭等嵌入式裝置上使用 Cloud Speech-to-Text API,請與我們聯絡以取得使用許可並瞭解計價方式。

* 目前僅支援英文 (美國)

** 每項要求的執行時間均會進位至最接近的 15 秒倍數。舉例來說,假設您向系統傳送三項各含 7 秒音訊內容的要求 (標準級模型),系統便會向您收取 45 秒音訊內容 (3 × 15 秒) 共 $0.018 美元的費用。 在計算秒數時,如果您的音訊長度並非整數秒數,系統也會將其進位至最接近的 15 秒倍數。也就是說,系統會將 15.14 秒計為 30 秒,並向您收取 30 秒的費用。

負載平衡圖示

本頁所列產品或功能仍在 Beta 版測試階段。如要進一步瞭解產品推出的各個階段,請參閱這個網頁

Cloud AI 產品符合這個頁面所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud 語音轉文字
需要協助嗎?請前往我們的支援網頁