Speech-to-Text

使用 Google AI 將語音轉成文字

透過簡單易用的 API,將音訊轉換為文字語音轉錄內容,並將語音辨識功能整合至應用程式。

新客戶最多可獲得價值 $300 美元的免費抵免額,開始試用 Speech-to-Text 和其他 Google Cloud 產品

功能

進階 Speech AI

Speech-to-Text 可使用 Chirp。Chirp 是以數百萬小時的音訊資料和數十億個文句訓練而成,是 Google Cloud 的語音基礎模型。相較之下,傳統語音辨識技術著重在大量特定語言的監督式資料。這些技術為使用者提供改善的辨識和語音轉錄功能,可用於辨識更多語言和口音。

支援 125 種語言和方言

為全球使用者族群建構的多種語言支援服務。轉錄短、長,甚至是串流音訊資料。Speech-to-Text 透過新一代的通用語音模型 Chirp,為使用者提供更準確且涵蓋全球範圍的翻譯與辨識技術。Chirp 是以數百萬小時的音訊和 280 億個文句進行自我監督訓練建置而成,涵蓋 100 多種語言。

用於語音轉錄的預先訓練或可自訂模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。透過 Speech-to-Text 使用者介面輕鬆自訂、實驗、建立及管理自訂資源。

立即可用的法規與安全性法規遵循功能

Speech-to-Text API v2 為企業和企業客戶提供立即可用、附加的安全性和法規要求功能。資料落地可讓您透過完全區域化的服務叫用語音轉錄模型,這些完全區域化的服務運用於新加坡和比利時等 Google Cloud 區域。辨識工具資源可讓您不必使用專用的服務帳戶進行驗證和授權。您可以在 Google Cloud 控制台中輕鬆取得資源產生與語音轉錄記錄檔。Speech-to-Text API v2 提供企業級加密機制,包括客戶自行管理的加密金鑰,適用於所有資源和批次語音轉錄功能。


AI 技術輔助的語音辨識和語音轉錄

Speech-to-Text 使用模型調整來提高常用字詞的準確率、增加可用於語音轉錄的詞彙,以及改善環境雜訊中的語音轉錄品質。模型調整功能可讓使用者自訂 Speech-to-Text 以比其他系統建議選項更高的頻率,辨識特定字詞或詞組。例如,您可以將 Speech-to-Text 設為傾向轉錄為「weather」,而非「whether」。

串流語音辨識

API 處理完從應用程式麥克風串流輸入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。


語音調整

您可以輸入提示來自訂語音辨識功能,以利轉錄特定領域專用的字詞和冷僻詞彙,提高特定字詞或詞組的語音轉錄準確率,並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。

Speech-to-Text 部署於地端

完整控管基礎架構和受保護的語音資料,並在私人資料中心以地端部署的方式使用 Google 的語音辨識技術。如要開始使用,請聯絡銷售人員

多聲道辨識

Speech-to-Text 可以在多聲道的情況 (例如視訊會議) 下辨識出各個聲道,然後依據發言順序註記轉錄結果。

具備雜訊處理功能

Speech-to-Text 可以處理多種環境雜訊,因此您不必另外消除噪音。

特定領域專用的模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。

內容篩選

不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容,並在文字結果中過濾掉不雅字詞。

語音轉錄評估

上傳您的語音資料並透過無程式碼工具轉錄。接著,即可對設定進行疊代來評估品質。

自動加上標點符號 (Beta 版)

Speech-to-Text 會為語音轉錄加上正確的標點符號,例如提供逗號、問號和句號。


說話者分段標記

系統會自動預測對話中的每句話是由誰說出,您可以依據這項預測結果判斷說話者的身分。

運作方式

Speech-to-Text 有三種主要的語音辨識方法,分別是同步、非同步和串流。根據是否需要語音轉錄,這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說,您只要輸入音訊資料,然後接收文字回應。

在應用程式中新增語音轉文字功能
瞭解如何將 Speech-to-Text 新增至應用程式

示範

測試 Speech-to-Text API

從上傳檔案或直接對著麥克風說話,快速建立音訊轉錄內容。

常見用途

轉錄音訊內容

建立音訊轉錄

瞭解如何在 Cloud 控制台中使用幾個步驟,透過建立音訊轉錄使用 Speech-to-Text API。您也可以轉錄短、長和串流音訊

開始使用 Speech-to-Text
音訊轉錄使用者介面

建立音訊轉錄

瞭解如何在 Cloud 控制台中使用幾個步驟,透過建立音訊轉錄使用 Speech-to-Text API。您也可以轉錄短、長和串流音訊

開始使用 Speech-to-Text
音訊轉錄使用者介面

運用 AI 技術的字幕影片

使用 AI 製作影片字幕

轉錄音訊和影片並加入字幕。為現有內容或即時串流內容新增字幕。我們的影片語音轉錄模型相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕,而且採用與 YouTube 相似的機器學習技術來提供影片字幕。這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕,以及提供其他語言的本地化版本字幕。

觀看自動產生字幕的教學課程
Speech-to-Text 字幕

使用 AI 製作影片字幕

轉錄音訊和影片並加入字幕。為現有內容或即時串流內容新增字幕。我們的影片語音轉錄模型相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕,而且採用與 YouTube 相似的機器學習技術來提供影片字幕。這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕,以及提供其他語言的本地化版本字幕。

觀看自動產生字幕的教學課程
Speech-to-Text 字幕

在應用程式中新增 Speech-to-Text

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式,即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API,即可輕鬆快速地為您的應用程式啟用 AI。

觀看範例影片
採用 Google AI 技術和 API 使用者介面的進階語音轉錄功能

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式,即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API,即可輕鬆快速地為您的應用程式啟用 AI。

觀看範例影片
採用 Google AI 技術和 API 使用者介面的進階語音轉錄功能

將音訊翻譯成文字

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中,您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯,並使用 Natural Language AI 建立合成語音。

開始上課
Speech-to-Text 課程

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中,您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯,並使用 Natural Language AI 建立合成語音。

開始上課
Speech-to-Text 課程

定價

Speech-to-Text 的定價方式Speech-to-Text 的定價取決於 API 版本、頻道、批次方法,以及儲存空間等額外的 Google Cloud 服務費用。
API 版本服務與功能定價

Speech-to-Text V1 API

V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額,且每個月有 60 分鐘的配額可免費轉錄及分析音訊,不會耗用抵免額。

$0.024 美元

每分鐘

Speech-to-Text V2 API


V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄,並支援客戶自行管理的加密金鑰。

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料

Speech-to-Text 的定價方式

Speech-to-Text 的定價取決於 API 版本、頻道、批次方法,以及儲存空間等額外的 Google Cloud 服務費用。

Speech-to-Text V1 API

服務與功能

V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額,且每個月有 60 分鐘的配額可免費轉錄及分析音訊,不會耗用抵免額。

定價

$0.024 美元

每分鐘

Speech-to-Text V2 API


服務與功能

V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄,並支援客戶自行管理的加密金鑰。

定價

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料

Pricing Calculator

估算您每個月的 Speech-to-Text 費用,包括特定區域的定價和相關費用。

客製化報價

貴機構如需索取客製化的報價,請與我們的銷售團隊聯絡。

開始進行概念驗證

新客戶可以獲得最高 $300 美元的免費抵免額,盡情體驗 Speech-to-Text 和其他 Google Cloud 產品

要執行大型專案嗎?

Speech-to-Text 部署於地端

Speech-to-Text 基本知識

Speech-to-Text 程式碼範例

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台