歡迎在 Gemini Enterprise Agent Platform 試用 Gemini 3，體驗 Google 最擅長推論、程式設計和多模態解讀的模型

Speech-to-Text

使用 Google AI 將語音轉換為文字

透過簡單易用的 API，將音訊轉換為文字語音轉錄內容，並將語音辨識功能整合至應用程式。

新客戶最多可獲得價值 $300 美元的免費抵免額，開始試用 Speech-to-Text 和其他 Google Cloud 產品

功能

進階語音 AI

Speech-to-Text 可使用 Chirp 3。Chirp 3 是以數百萬小時的音訊資料和數十億個文句訓練而成，是 Google Cloud 的語音基礎模型。相較之下，傳統語音辨識技術著重在大量特定語言的監督式資料。這些技術為使用者提供改善的辨識和語音轉錄功能，可用於辨識更多語言和口音。

支援超過 85 種語言和方言

為全球使用者族群建構的多種語言支援服務。可轉錄短/長/串流音訊資料。Speech-to-Text 透過新一代通用語音模型 Chirp 3，為使用者提供更準確的語音轉錄技術，且部署範圍涵蓋全球。

Chirp 3：語音轉錄功能是在自我監督下，以數百萬小時的音訊和 280 億個文句訓練及建構而成，涵蓋 100 多種語言。

轉錄短、長或串流音訊

查看指南

串流語音辨識

API 處理完從應用程式麥克風串流輸入的音訊內容，或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後，使用者就能即時接收語音辨識結果。

AI 輔助語音辨識和轉錄

Speech-to-Text 使用模型調整來提高常用字詞的準確率、增加可用於語音轉錄的詞彙，以及改善環境雜訊中的語音轉錄品質。模型調整功能可讓使用者自訂 Speech-to-Text 以比其他系統建議選項更高的頻率，辨識特定字詞或詞組。例如，您可以將 Speech-to-Text 設為傾向轉錄為「weather」，而非「whether」。

立即可用的法規與安全性法規遵循功能

Speech-to-Text API v2 為企業和企業客戶提供立即可用、附加的安全性和法規要求功能。資料落地可讓您透過完全區域化的服務叫用語音轉錄模型，這些完全區域化的服務運用於新加坡和比利時等 Google Cloud 區域。您可以在 Google Cloud 控制台中輕鬆取得資源產生與語音轉錄記錄檔。Speech-to-Text API v2 提供企業級加密機制，包括客戶自行管理的加密金鑰，適用於所有資源和批次語音轉錄功能。

語音調整

您可以輸入提示來自訂語音辨識功能，以利轉錄特定領域專用的字詞和冷僻詞彙，提高特定字詞或詞組的語音轉錄準確率，並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。

Speech-to-Text On-Prem

完整控管基礎架構和受保護的語音資料，並在私人資料中心以地端部署的方式使用 Google 的語音辨識技術。如要開始使用，請聯絡銷售人員。

多聲道辨識

Speech-to-Text 可以在多聲道的情況 (例如視訊會議) 下辨識出各個聲道，然後依據發言順序註記轉錄結果。

雜訊處理功能

Speech-to-Text 可以處理多種環境雜訊，因此您不必另外消除噪音。

特定領域專用的模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求，我們已訓練出多個最佳化模型供您選用。舉例來說，我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。

內容篩選

不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容，並在文字結果中過濾掉不雅字詞。

語音轉錄評估

上傳您的語音資料並透過無程式碼工具轉錄。接著，即可對設定進行疊代來評估品質。

自動加上標點符號 (Beta 版)

Speech-to-Text 會為語音轉錄加上正確的標點符號，例如提供逗號、問號和句號。

說話者分段標記

系統會自動預測對話中的每句話是由誰說出，您可以依據這項預測結果判斷說話者的身分。

比較 API 和 Agent Studio 的 Speech-to-Text Chirp 模型

產品	說明	適用情境	主要功能與特色
Chirp 3：Agent Platform 的語音轉錄模型	簡單易用的無程式碼網頁式圖形使用者介面。	快速測試音訊檔案、製作原型、建立音訊轉錄內容，並直接將音訊或錄製內容上傳至網路瀏覽器。	- 強化多語偵測和語音轉錄功能 - 支援超過 85 種語言和方言的語音轉錄功能 - 支援說話者分段標記和模型調整 - 自動語音辨識，將音訊轉錄為文字 - 多語言偵測與語音轉錄
Chirp 3：Speech-to-Text V2 API 的語音轉錄功能	一種 API，為 Google 新一代通用 Speech-to-Text 模型，可整合多種語言的資料。	建構可擴充的企業級應用程式。語音轉錄功能與現有軟體輕鬆整合。	- 強化多語偵測和語音轉錄功能 - 支援超過 85 種語言和方言的語音轉錄功能 - 支援說話者分段標記和模型調整 - 自動語音辨識，將音訊轉錄為文字 - 多語言偵測與語音轉錄

Chirp 3：Agent Platform 的語音轉錄模型

說明

簡單易用的無程式碼網頁式圖形使用者介面。

適用情境

快速測試音訊檔案、製作原型、建立音訊轉錄內容，並直接將音訊或錄製內容上傳至網路瀏覽器。

主要功能與特色

- 強化多語偵測和語音轉錄功能

- 支援超過 85 種語言和方言的語音轉錄功能

- 支援說話者分段標記和模型調整

- 自動語音辨識，將音訊轉錄為文字

- 多語言偵測與語音轉錄

Chirp 3：Speech-to-Text V2 API 的語音轉錄功能

說明

一種 API，為 Google 新一代通用 Speech-to-Text 模型，可整合多種語言的資料。

適用情境

建構可擴充的企業級應用程式。

語音轉錄功能與現有軟體輕鬆整合。

主要功能與特色

- 強化多語偵測和語音轉錄功能

- 支援超過 85 種語言和方言的語音轉錄功能

- 支援說話者分段標記和模型調整

- 自動語音辨識，將音訊轉錄為文字

- 多語言偵測與語音轉錄

運作方式

Speech-to-Text 有三種主要的語音辨識方法，分別是同步、非同步和串流。根據是否需要語音轉錄，這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說，您只要輸入音訊資料，然後接收文字回應。

瞭解如何將 Speech-to-Text 新增至應用程式

示範

測試 Speech-to-Text API

從上傳檔案或直接對著麥克風說話，快速建立音訊轉錄內容。

常見用途

轉錄音訊內容

建立音訊轉錄

瞭解只需在 Google Cloud 控制台完成哪些步驟，就能使用 Speech-to-Text API 建立音訊轉錄內容，還能轉錄串流音訊、短音訊和長音訊。

Speech-to-Text 上傳工具預先發布版

教學課程、快速入門導覽課程和研究室

建立音訊轉錄

瞭解只需在 Google Cloud 控制台完成哪些步驟，就能使用 Speech-to-Text API 建立音訊轉錄內容，還能轉錄串流音訊、短音訊和長音訊。

Speech-to-Text 上傳工具預先發布版

運用 AI 技術的字幕影片

使用 AI 製作影片字幕

您可以轉錄音訊和影片並加入字幕，包括為現有內容新增字幕，以及為串流內容新增即時字幕。我們的 Chirp 3：語音轉錄功能採用與 YouTube 相似的機器學習技術提供影片字幕，因此相當適合用來為影片和/或說話者眾多的內容建立索引或加上字幕。

這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕，以及提供其他語言的本地化版本字幕。

教學課程、快速入門導覽課程和研究室

使用 AI 製作影片字幕

您可以轉錄音訊和影片並加入字幕，包括為現有內容新增字幕，以及為串流內容新增即時字幕。我們的 Chirp 3：語音轉錄功能採用與 YouTube 相似的機器學習技術提供影片字幕，因此相當適合用來為影片和/或說話者眾多的內容建立索引或加上字幕。

這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕，以及提供其他語言的本地化版本字幕。

在應用程式中新增 Speech-to-Text

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何為應用程式新增 AI，不必具備豐富的機器學習模型經驗。使用預先訓練的 Speech-to-Text API，即可輕鬆快速地為您的應用程式啟用 AI。

在應用程式中新增語音控制功能

教學課程、快速入門導覽課程和研究室

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何為應用程式新增 AI，不必具備豐富的機器學習模型經驗。使用預先訓練的 Speech-to-Text API，即可輕鬆快速地為您的應用程式啟用 AI。

在應用程式中新增語音控制功能

將音訊轉譯成文字

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中，您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯，並使用 Natural Language AI 建立合成語音。

教學課程、快速入門導覽課程和研究室

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中，您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯，並使用 Natural Language AI 建立合成語音。

定價

Speech-to-Text 的定價方式	Speech-to-Text 的定價取決於 API 版本、聲道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。
API 版本	服務與功能	定價
Speech-to-Text V2 API	V2 為 Chirp 3 的多區域和單一區域部署作業提供資料落地設定。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。	$0.016 美元每分鐘

Speech-to-Text 的定價方式

Speech-to-Text 的定價取決於 API 版本、聲道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。

API 版本

服務與功能

定價

Speech-to-Text V2 API

V2 為 Chirp 3 的多區域和單一區域部署作業提供資料落地設定。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料。

Speech-to-Text 的定價方式

Speech-to-Text 的定價取決於 API 版本、聲道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。

Speech-to-Text V2 API

服務與功能

V2 為 Chirp 3 的多區域和單一區域部署作業提供資料落地設定。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。

定價

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料。

Pricing Calculator

估算您每個月的 Speech-to-Text 費用，包括特定區域的定價和相關費用。

客製化報價

貴組織如需索取客製化的報價，請與我們的銷售團隊聯絡。

Speech-to-Text

使用 Google AI 將語音轉換為文字

產品亮點

進階語音 AI

支援超過 85 種語言和方言

串流語音辨識

AI 輔助語音辨識和轉錄

立即可用的法規與安全性法規遵循功能

語音調整

Speech-to-Text On-Prem

多聲道辨識

雜訊處理功能

特定領域專用的模型

內容篩選

語音轉錄評估

自動加上標點符號 (Beta 版)

說話者分段標記

Speech-to-Text 有三種主要的語音辨識方法，分別是同步、非同步和串流。根據是否需要語音轉錄，這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說，您只要輸入音訊資料，然後接收文字回應。

測試 Speech-to-Text API

轉錄音訊內容

建立音訊轉錄

教學課程、快速入門導覽課程和研究室

建立音訊轉錄

運用 AI 技術的字幕影片

使用 AI 製作影片字幕

教學課程、快速入門導覽課程和研究室

使用 AI 製作影片字幕

在應用程式中新增 Speech-to-Text

如何將 Speech-to-Text 新增至應用程式

教學課程、快速入門導覽課程和研究室

如何將 Speech-to-Text 新增至應用程式

將音訊轉譯成文字

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

教學課程、快速入門導覽課程和研究室

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

Pricing Calculator

客製化報價

開始驗證概念

新客戶可以獲得最高 $300 美元的免費抵免額，盡情體驗 Speech-to-Text 和其他 Google Cloud 產品

要進行大型專案嗎？

Speech-to-Text On-Prem

Speech-to-Text 基本知識

Speech-to-Text 程式碼範例