Cloud Speech-to-Text

運用機器學習技術將語音內容轉換為文字,無論音訊長短都適用!

免費試用

查看這項產品的說明文件

強大的語音辨識功能

Google 在 Cloud Speech-to-Text API 中加入了強大的神經網路模型,方便開發人員輕鬆將音訊轉換成文字。這個 API 能辨識超過 120 種語言和方言,滿足全球各地使用者的需求,讓您啟用語音指令和控制功能、將客服中心的語音音訊轉錄為文字,以及用於其他用途。此外,借助 Google 的機器學習技術,這個 API 也能處理即時串流或預先錄製的音訊。

speech-api-lead

立即將語音轉換成文字

選取語言並點選 [Start Now] (立即開始),就能開始錄音

採用機器學習技術

利用最先進的深度學習神經網路演算法,提供無與倫比的語音辨識準確度。隨著 Google 持續改善自家產品使用的內部語音辨識技術,長期下來 Cloud Speech-to-Text 的正確性也會越來越高。

可辨識 120 種語言和方言

Cloud Speech-to-Text 可辨識120 種語言和方言,滿足全球各地使用者的需求。另外,無論是何種語言,都可以過濾掉文字轉換結果中的不當內容。

自動識別口語內容

Cloud Speech-to-Text 可以識別出說話時所使用的語言 (僅限四種語言),因此可應用於語音搜尋 (例如「巴黎的氣溫幾度?」),以及下達語音指令 (例如「調高音量」)。

將語音即時轉錄為文字,而且不限音訊長度

Cloud Speech-to-Text 可以串流處理文字結果。這個 API 能夠即時辨識串流音訊的語音,或是使用者當下所說的話,然後立即傳回辨識出的文字。此外,Cloud Speech-to-Text 也可以處理檔案中儲存的音訊,並傳回經過辨識的文字。無論音訊的長度為何,這個 API 都能順利分析。

自動轉錄專有名詞,並套用文句內容應有的格式

Cloud Speech-to-Text 經過特別設計,能夠辨識現實生活中會出現的語彙,協助您正確無誤地轉錄各種專有名詞 (例如 Sundar Pichai),轉錄出來的文字也符合正確的語言格式 (例如日期、電話號碼)。與整部牛津英語辭典中的單詞數量相比,Google 支援的專有名詞數量超過 10 倍。

針對您的用途量身打造,提供多種預先建構的模型

Cloud Speech-to-Text 提供多種預先建構的語音辨識模型,可讓您根據使用案例 (例如語音指令) 調整至最佳設定。舉例來說,我們預先建構的影片語音轉錄模型採用與 YouTube 字幕功能類似的機器學習技術,很適合用於為影片和多人說話的語音內容建立索引或加上字幕。

模型 說明
command_and_search 適用於短語查詢,例如語音指令或語音搜尋。
phone_call 適用於電話語音 (錄音取樣率通常為 8khz)。
video 適用於影片中的音訊,或是有多人說話的音訊。在理想情況下,錄音的取樣率為 16khz 以上。提醒您,這是進階級模型,費用比一般費率更高。
default 適用於不符合上述特定音訊模型的音訊,例如長度較長的音訊。理想情況下為高傳真音訊,且錄音取樣率為 16khz 以上。

Cloud Speech-to-Text 功能

透過機器學習技術將語音轉為文字。

自動語音辨識
採用深度學習神經網路技術的自動語音辨識 (ASR),為您的應用程式提供增強功能,例如語音搜尋或語音內容轉錄等。
包含全球詞彙
詞彙量豐富,能夠辨識超過 120 種語言和方言。
詞組提示
只要提供使用者可能說出的字詞或詞組,即可針對特定情境自訂語音辨識結果。在將自訂字詞和名稱新增至詞彙庫,以及實際應用語音控制機制時,這項功能就特別實用。
支援即時串流或預先錄製的音訊內容
音訊輸入內容可以透過應用程式的麥克風加以串流,或是以預先錄製的音訊檔案傳送 (內嵌或經由 Google Cloud Storage 均可)。我們支援多種音訊編碼格式,包含 FLAC、AMR、PCMU 和 Linear-16。
自動偵測語言Beta 版
如果您需要支援多語言環境,現在只要指定二至四種語言代碼,Cloud Speech-to-Text 就會正確識別內容語言,並提供文字轉錄結果。
具備雜訊處理功能
能夠處理各種環境雜訊,無須另外消除噪音。
過濾不當內容
針對部分語言過濾文字轉換結果中的不當內容。
自動加上標點符號Beta 版
透過機器學習技術為轉錄內容加上正確的標點符號,像是逗號、問號和句號等。
多種模型任您選擇
具備四種預先建立的模型供您選擇:預設、語音指令與搜尋、電話通話和影片語音轉錄。
說話者分段標記Beta 版
協助您判斷說話者是誰,說了哪些內容:您現在可以自動預測對話中每一句話的說話者。
多頻道辨識
在一段包含多位參與者的錄音內容中,如果每位參與者的聲音是透過不同頻道錄製 (例如來自電話的兩個頻道,或是視訊會議中的四個頻道),Cloud Speech-to-Text 可以識別出各個頻道,並依據實際的發言順序標註轉錄結果。

Cloud Speech-to-Text 計價方式

強大的語音辨識功能。

前 60 分鐘免費,之後系統將依據 Cloud Speech-to-Text 處理的音訊長度,以 15 秒為單位向您收費。如需詳細資訊,請參閱定價指南

功能 標準級模型 (強化版通話和影片模型以外的所有模型) 進階級模型* (強化版通話和影片模型)
0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下 0 至 60 分鐘 61 分鐘以上,100 萬分鐘以下
語音辨識 (未啟用資料記錄功能 - 預設值) 免費 每 15 秒 $0.006 美元** 免費 每 15 秒 $0.009 美元**
語音辨識 (已啟用資料記錄功能) 免費 每 15 秒 $0.004 美元** 免費 每 15 秒 $0.006 美元**

這種計價方式適用於個人系統 (例如手機、平板電腦、筆記型電腦和桌上型電腦) 上的應用程式。如果您要在汽車、電視、家電用品或喇叭等嵌入式裝置上使用 Cloud Speech-to-Text API,請與我們聯絡以取得使用許可並瞭解計價方式。

* 目前僅支援英文 (美國)

** 每項要求的執行時間均會進位至最接近的 15 秒倍數。舉例來說,假設您向系統傳送三項各含 7 秒音訊內容的要求 (標準級模型),系統便會向您收取 45 秒 (3 × 15 秒) 共 $0.018 美元的費用。在計算秒數時,如果您的音訊長度並非整數秒數,我們也會將其進位至最接近的 15 秒倍數。也就是說,系統會將 15.14 秒計為 30 秒,並向您收取 30 秒的費用。

本頁列出的產品或功能仍處於 Beta 測試階段。如要進一步瞭解各個產品的推出階段,請參閱這個網頁

傳送您對下列選項的寶貴意見...

這個網頁
Cloud 語音轉文字