Cloud 語音轉文字

運用機器學習技術將語音內容轉換為文字,無論音訊長短都適用!

免費試用

查看這項產品的說明文件

強大的語音辨識功能

Google 在 Cloud 語音轉文字 API 中加入了強大的神經網路模型,方便開發人員輕鬆將音訊轉換成文字。這個 API 能辨識超過 120 種語言和方言,滿足全球各地使用者的需求,讓您啟用語音指令和控制功能、將客服中心的語音音訊轉錄為文字,以及用於其他用途。此外,借助 Google 的機器學習技術,這個 API 也能處理即時串流或預先錄製的音訊。

speech-api-lead

立即將語音轉換成文字

選取語言並點選 [Start Now] (立即開始),就能開始錄音

採用機器學習技術

利用最先進的深度學習神經網路演算法,提供無與倫比的語音辨識準確度。隨著 Google 持續改善自家產品使用的內部語音辨識技術,長期下來 Cloud 語音轉文字的正確性也會越來越高。

可辨識 120 種語言和方言

Cloud 語音轉文字可辨識120 種語言和方言,滿足全球各地使用者的需求。另外,無論是何種語言,都可以過濾掉文字轉換結果中的不當內容。

自動識別口語內容

Cloud 語音轉文字可以識別出說話時所使用的語言 (僅限四種語言),因此可應用於語音搜尋 (例如「巴黎的氣溫幾度?」),以及下達語音指令 (例如「調高音量」)。

將語音即時轉錄為文字,而且不限音訊長度

Cloud 語音轉文字可以串流處理文字結果。這個 API 能夠即時辨識串流音訊的語音,或是使用者當下所說的話,然後立即傳回辨識出的文字。此外,Cloud 語音轉文字也可以處理檔案中儲存的音訊,並傳回經過辨識的文字。無論音訊的長度為何,這個 API 都能順利分析。

自動轉錄專有名詞,並套用文句內容應有的格式

Cloud 語音轉文字經過特別設計,能夠辨識現實生活中會出現的語彙,協助您正確無誤地轉錄各種專有名詞 (例如 Sundar Pichai),轉錄出來的文字也符合正確的語言格式 (例如日期、電話號碼)。與整部牛津英語辭典中的單詞數量相比,Google 支援的專有名詞數量超過 10 倍。

針對您的用途量身打造,提供多種預先建構的模型

Cloud 語音轉文字提供多種預先建構的語音辨識模型,可讓您根據使用案例 (例如語音指令) 調整至最佳設定。舉例來說,我們預先建構的影片語音轉錄模型採用與 YouTube 字幕功能類似的機器學習技術,很適合用於為影片和多人說話的語音內容建立索引或加上字幕。

模型 說明
command_and_search 適用於短語查詢,例如語音指令或語音搜尋。
phone_call 適用於電話語音 (錄音取樣率通常為 8khz)。
video 適用於影片中的音訊,或是有多人說話的音訊。在理想情況下,錄音的取樣率為 16khz 以上。提醒您,這是進階級模型,費用比一般費率更高。
default 適用於不符合上述特定音訊模型的音訊,例如長度較長的音訊。理想情況下為高傳真音訊,且錄音取樣率為 16khz 以上。

Cloud 語音轉文字功能

透過機器學習技術將語音轉為文字。

自動語音辨識
採用深度學習神經網路技術的自動語音辨識 (ASR),為您的應用程式提供增強功能,例如語音搜尋或語音內容轉錄等。
包含全球詞彙
詞彙量豐富,能夠辨識超過 120 種語言和方言。
詞組提示
只要提供使用者可能說出的字詞或詞組,即可針對特定情境自訂語音辨識結果。在將自訂字詞和名稱新增至詞彙庫,以及實際應用語音控制機制時,這項功能就特別實用。
支援即時串流或預先錄製的音訊內容
音訊輸入內容可以透過應用程式的麥克風加以串流,或是以預先錄製的音訊檔案傳送 (內嵌或經由 Google Cloud Storage 均可)。我們支援多種音訊編碼格式,包含 FLAC、AMR、PCMU 和 Linear-16。
自動偵測語言測試版
如果您需要支援多語言環境,現在只要指定二至四種語言代碼,Cloud 語音轉文字就會正確識別內容語言,並提供文字轉錄結果。
具備雜訊處理功能
能夠處理各種環境雜訊,無須另外消除噪音。
過濾不當內容
針對部分語言過濾文字轉換結果中的不當內容。
自動加上標點符號測試版
採用機器學習技術,為轉錄內容加上正確的標點符號 (例如逗號、問號和句點)。
模型選擇測試版
您可以選擇使用四種預先建構的模型:預設、語音指令及搜尋、電話和影片語音轉錄。
說話者分段標記測試版
辨識說話者及講出的內容,現在可以自動預測對話中每句話的說話者。
多頻道辨識測試版
在一段有多位參與者的錄音內容裡,如果每位參與者的聲音是從不同的頻道錄製 (例如,來自電話的兩個頻道,或是來自視訊會議的四個頻道),Cloud 語音轉文字可以辨識出各個頻道,然後以實際的發言順序標註轉錄結果。

Cloud 語音轉文字 API 定價

強大的語音辨識功能。

前 60 分鐘免費,之後系統將依據 Cloud 語音轉文字處理的音訊長度,以 15 秒為單位向您收費。如需詳細資訊,請參閱定價指南

功能 0 至 60 分鐘 超過 60 分鐘,最高 100 萬分鐘
語音辨識 (適用於影片以外的所有模型) 免費 每 15 秒 $0.006 美元*
影片語音辨識 $0.006 美元 每 15 秒 $0.012 美元*

在手機、平板電腦、筆記型電腦和桌上型電腦等個人系統上操作應用程式,適用本計價方式。如果您是要在汽車、電視、家電用品或喇叭等嵌入式裝置上使用語音轉文字 API,請與我們聯絡以取得使用許可並瞭解計價方式。

* 每項要求執行的時間皆會進位至最接近的 15 秒倍數。舉例來說,假設您有 3 個各含 7 秒音訊內容的個別要求,系統就會向您收取 45 秒 (3 × 15 秒) 共 $0.018 美元的費用。在計算秒數時,如果您的音訊長度並非整數秒數,我們也會無條件進位至最接近的 15 秒倍數。也就是說,系統會將 15.14 秒計為 30 秒,並向您收取 30 秒的費用。

本頁列出的產品或功能皆為測試版。如要進一步瞭解各個產品推出階段,請參閱這個網頁

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Speech-to-Text API