Cloud Speech-to-Text

採用機器學習技術將語音轉換成文字,不論音訊長短都能適用。

免費試用

強大的語音辨識功能

有了 Google Cloud Speech-to-Text 這個容易使用的 API,開發人員就能透過其中的強大神經網路模型,將音訊轉換成文字。這個 API 能辨識超過 120 種語言和方言,以支援全球各地的使用者,讓您啟用語音指令和控制功能、將客服中心的語音音訊轉錄為文字,以及用於其他用途。此外,借助 Google 的機器學習技術,這個 API 也能處理即時串流播放,或預先錄製的音訊。

speech-api-lead

立即將語音轉換成文字

選取語言並點選 [立即開始],就能開始錄音

採用機器學習技術

利用最先進的深度學習神經網路演算法,提供無與倫比的語音辨識準確度。隨著 Google 改善 Google 產品使用的內部語音辨識技術,Cloud Speech-to-Text 的正確性會隨之提高。

辨識 120 種語言和方言

Cloud Speech-to-Text 可辨識120 種語言和方言,以支援全球的使用者。此外,不論辨識哪一種語言,您都可以過濾文字轉換結果中的不當內容。

自動識別口語內容

Cloud Speech-to-Text 可以識別出說話時所使用的語言 (僅限四種語言)。因此可以使用此功能進行語音搜尋 (例如「巴黎的氣溫幾度?」),以及下達指定 (例如「調高音量。」)

將語音即時轉錄為文字,而且不限音訊長度

Cloud Speech-to-Text 可以串流處理文字結果。這個 API 能夠即時辨識串流音訊的語音,或是使用者說的話,然後立即傳回辨識出的文字。此外,Cloud Speech-to-Text 也可以處理檔案中儲存的音訊,並傳回經過辨識的文字。無論音訊的長度為何,這個 API 都能順利分析。

自動轉錄專有名詞,並套用文句內容應有的格式

Cloud Speech-to-Text 經過特別設計,能夠辨識現實生活中會出現的語彙,協助您正確無誤地轉錄各種專有名詞 (例如 Sundar Pichai),轉錄出來的文字也符合正確的語言格式 (例如日期、電話號碼)。與整部牛津英語辭典中的單詞數量相比,Google 支援的專有名詞數量超過 10 倍。

為您的使用案例量身打造,提供多種預先建構的模型

Cloud Speech-to-Text 提供多種預先建構的語音辨識模型,可讓您根據使用案例 (例如語音指令) 調整至最佳設定。舉例來說,我們預先建構的影片語音轉錄模型採用與 YouTube 字幕功能類似的機器學習技術,很適合用於為影片建立索引或加上字幕。

型號 說明
command_and_search 適用於短語查詢,例如語音指令或語音搜尋。
phone_call 適用於電話錄音 (錄音取樣率通常為 8khz )。
video 適用於影片中的音訊,或是有多人說話的音訊。在理想情況下,錄音的取樣率為 16khz 以上。提醒您,這是付費模型,費用比一般費率更高。
default 適用於不符合上述特定音訊模型的音訊,例如長度較長的音訊。理想情況下為高傳真音訊,且錄音取樣率為 16khz 以上。

Cloud Speech-to-Text 功能

語音轉文字採用機器學習技術。

自動語音辨識
採用深度學習神經網路技術的自動語音辨識 (ASR),為您的應用程式提供增強功能,例如語音搜尋或語音內容轉錄等。
包含全球詞彙
詞彙量豐富,能夠辨識超過 120 種語言和方言。
詞組提示
只要提供使用者可能說出的單字或詞彙,即可針對特定情境自訂語音辨識結果。在新增自訂字詞和名稱至詞彙表,以及進行語音控制時,這項功能特別好用。
支援即時播放串流或預先錄製的音訊
您可以透過應用程式的麥克風串流處理音訊輸入內容,或是透過預先錄製的音訊檔案傳送 (採用內嵌方式或透過 Google Cloud Storage)。我們支援多種音訊編碼格式,包括 FLAC、AMR、PCMU 及 Linear-16。
自動偵測語言 測試版
在需要支援多語言環境時,現在只需指定二到四種語言代碼,Cloud Speech-to-Text 就會正確地識別說出的語言,並提供轉錄文字。
抗雜訊
能夠處理各種環境雜訊,而不需要額外消除噪音。
過濾不當內容
針對部分語言過濾文字轉換結果中的不當內容。
自動加上標點符號 測試版
採用機器學習技術,為轉錄內容加上正確的標點符號 (例如逗號、問號和句點)。
模型選擇 測試版
您可以選擇使用四種預先建構的模型:預設、語音指令及搜尋、電話和影片語音轉錄。
說話者分段標記 測試版
辨識說話者及講出的內容,現在可以自動預測對話中每句話的說話者。
多頻道辨識 測試版
在一段有多位參與者的錄音內容裡,如果每位參與者的聲音是從不同的頻道錄製 (例如,來自電話的兩個頻道,或是有四個頻道的視訊會議),Cloud Speech-to-Text 可以辨識出各個頻道,然後以實際的發言順序標註轉錄文字中說話者的身分。

Cloud Speech-to-Text API 計價方式

強大的語音辨識功能。

前 60 分鐘免費,之後系統將依據 Cloud Speech-to-Text 處理的音訊長度,以 15 秒為單位向您收費。如需詳細資訊,請參閱定價指南

功能 0 至 60 分鐘 超過 60 分鐘,最高 100 萬分鐘
語音辨識 (除影片外的所有模型) 免費 每 15 秒 $0.006 美元*
影片語音辨識 $0.006 美元 每 15 秒 $0.012 美元*

這種計價方式適用於個人系統 (例如手機、平板電腦、筆記型電腦、桌上型電腦) 上的應用程式。如果您是要在汽車、電視、家電用品或喇叭等嵌入式裝置上使用 Speech-to-Text API,請與我們聯絡以取得使用許可並瞭解計價方式。

* 每項要求執行的時間皆會進位至最接近的 15 秒倍數。舉例來說,假設您有 3 個各含 7 秒音訊內容的個別要求,系統就會向您收取 45 秒 (3 × 15 秒) 共 $0.018 美元的費用。在計算秒數時,如果您的音訊長度並非整數秒數,我們也會無條件進位至最接近的 15 秒倍數。也就是說,系統會將 15.14 秒計為 30 秒,並向您收取 30 秒的費用。

本頁列出的產品或功能皆為測試版。如要瞭解關於產品上市階段的詳細資訊,請查看此處

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Speech-to-Text API