歡迎試用 Gemini 1.5 Pro (Vertex AI 中最先進的多模態模型)，看看您可以透過 100 萬個詞元的脈絡窗口建構什麼內容

Speech-to-Text

使用 Google AI 將語音轉成文字

透過簡單易用的 API，將音訊轉換為文字語音轉錄內容，並將語音辨識功能整合至應用程式。

每月最多可免費轉錄及分析 60 分鐘的音訊。*新客戶最多可獲得價值 $300 美元的免費抵免額，開始試用 Speech-to-Text 和其他 Google Cloud 產品

*僅適用於使用 Speech-to-Text V1 API 處理音訊的情況。

功能

進階 Speech AI

Speech-to-Text 可使用 Chirp。Chirp 是以數百萬小時的音訊資料和數十億個文句訓練而成，是 Google Cloud 的語音基礎模型。相較之下，傳統語音辨識技術著重在大量特定語言的監督式資料。這些技術為使用者提供改善的辨識和語音轉錄功能，可用於辨識更多語言和口音。

支援 125 種語言和方言

為全球使用者族群建構的多種語言支援服務。轉錄短、長，甚至是串流音訊資料。Speech-to-Text 透過新一代的通用語音模型 Chirp，為使用者提供更準確且涵蓋全球範圍的翻譯與辨識技術。Chirp 是以數百萬小時的音訊和 280 億個文句進行自我監督訓練建置而成，涵蓋 100 多種語言。

轉錄短、長或串流音訊

查看指南

用於語音轉錄的預先訓練或可自訂模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求，我們已訓練出多個最佳化模型供您選用。透過 Speech-to-Text 使用者介面輕鬆自訂、實驗、建立及管理自訂資源。

立即可用的法規與安全性法規遵循功能

Speech-to-Text API v2 為企業和企業客戶提供立即可用、附加的安全性和法規要求功能。資料落地可讓您透過完全區域化的服務叫用語音轉錄模型，這些完全區域化的服務運用於新加坡和比利時等 Google Cloud 區域。辨識工具資源可讓您不必使用專用的服務帳戶進行驗證和授權。您可以在 Google Cloud 控制台中輕鬆取得資源產生與語音轉錄記錄檔。Speech-to-Text API v2 提供企業級加密機制，包括客戶自行管理的加密金鑰，適用於所有資源和批次語音轉錄功能。

AI 技術輔助的語音辨識和語音轉錄

Speech-to-Text 使用模型調整來提高常用字詞的準確率、增加可用於語音轉錄的詞彙，以及改善環境雜訊中的語音轉錄品質。模型調整功能可讓使用者自訂 Speech-to-Text 以比其他系統建議選項更高的頻率，辨識特定字詞或詞組。例如，您可以將 Speech-to-Text 設為傾向轉錄為「weather」，而非「whether」。

串流語音辨識

API 處理完從應用程式麥克風串流輸入的音訊內容，或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後，使用者就能即時接收語音辨識結果。

語音調整

您可以輸入提示來自訂語音辨識功能，以利轉錄特定領域專用的字詞和冷僻詞彙，提高特定字詞或詞組的語音轉錄準確率，並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。

Speech-to-Text 部署於地端

完整控管基礎架構和受保護的語音資料，並在私人資料中心以地端部署的方式使用 Google 的語音辨識技術。如要開始使用，請聯絡銷售人員。

多聲道辨識

Speech-to-Text 可以在多聲道的情況 (例如視訊會議) 下辨識出各個聲道，然後依據發言順序註記轉錄結果。

具備雜訊處理功能

Speech-to-Text 可以處理多種環境雜訊，因此您不必另外消除噪音。

特定領域專用的模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求，我們已訓練出多個最佳化模型供您選用。舉例來說，我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。

內容篩選

不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容，並在文字結果中過濾掉不雅字詞。

語音轉錄評估

上傳您的語音資料並透過無程式碼工具轉錄。接著，即可對設定進行疊代來評估品質。

自動加上標點符號 (Beta 版)

Speech-to-Text 會為語音轉錄加上正確的標點符號，例如提供逗號、問號和句號。

說話者分段標記

系統會自動預測對話中的每句話是由誰說出，您可以依據這項預測結果判斷說話者的身分。

運作方式

Speech-to-Text 有三種主要的語音辨識方法，分別是同步、非同步和串流。根據是否需要語音轉錄，這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說，您只要輸入音訊資料，然後接收文字回應。

查看說明文件

瞭解如何將 Speech-to-Text 新增至應用程式

示範

測試 Speech-to-Text API

從上傳檔案或直接對著麥克風說話，快速建立音訊轉錄內容。

常見用途

轉錄音訊內容

建立音訊轉錄

瞭解如何在 Cloud 控制台中使用幾個步驟，透過建立音訊轉錄使用 Speech-to-Text API。您也可以轉錄短、長和串流音訊。

開始使用 Speech-to-Text

教學課程、快速入門導覽課程和研究室

建立音訊轉錄

瞭解如何在 Cloud 控制台中使用幾個步驟，透過建立音訊轉錄使用 Speech-to-Text API。您也可以轉錄短、長和串流音訊。

開始使用 Speech-to-Text

運用 AI 技術的字幕影片

使用 AI 製作影片字幕

轉錄音訊和影片並加入字幕。為現有內容或即時串流內容新增字幕。我們的影片語音轉錄模型相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕，而且採用與 YouTube 相似的機器學習技術來提供影片字幕。這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕，以及提供其他語言的本地化版本字幕。

觀看自動產生字幕的教學課程

教學課程、快速入門導覽課程和研究室

使用 AI 製作影片字幕

轉錄音訊和影片並加入字幕。為現有內容或即時串流內容新增字幕。我們的影片語音轉錄模型相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕，而且採用與 YouTube 相似的機器學習技術來提供影片字幕。這個教學課程說明如何使用 Google Cloud AI 服務 Speech-to-Text API 和 Translation API 為影片新增字幕，以及提供其他語言的本地化版本字幕。

觀看自動產生字幕的教學課程

在應用程式中新增 Speech-to-Text

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式，即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API，即可輕鬆快速地為您的應用程式啟用 AI。

觀看範例影片

在應用程式中新增語音控制功能

教學課程、快速入門導覽課程和研究室

如何將 Speech-to-Text 新增至應用程式

瞭解如何使用 Google Cloud 快速輕鬆地為應用程式啟用 Speech-to-Text。這部影片說明如何將 AI 加入應用程式，即使沒有豐富的機器學習模型經驗也沒問題。使用預先訓練的 Speech-to-Text API，即可輕鬆快速地為您的應用程式啟用 AI。

觀看範例影片

在應用程式中新增語音控制功能

將音訊翻譯成文字

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中，您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯，並使用 Natural Language AI 建立合成語音。

開始上課

教學課程、快速入門導覽課程和研究室

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

在本課程中，您將使用 Speech-to-Text API 將音訊檔案轉錄成文字檔案、使用 Google Cloud Translation API 翻譯，並使用 Natural Language AI 建立合成語音。

開始上課

定價

Speech-to-Text 的定價方式	Speech-to-Text 的定價取決於 API 版本、頻道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。
API 版本	服務與功能	定價
Speech-to-Text V1 API	V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額，且每個月有 60 分鐘的配額可免費轉錄及分析音訊，不會耗用抵免額。	$0.024 美元每分鐘
Speech-to-Text V2 API	V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。	$0.016 美元每分鐘

Speech-to-Text 的定價方式

Speech-to-Text 的定價取決於 API 版本、頻道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。

API 版本

服務與功能

定價

Speech-to-Text V1 API

V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額，且每個月有 60 分鐘的配額可免費轉錄及分析音訊，不會耗用抵免額。

$0.024 美元

每分鐘

Speech-to-Text V2 API

V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料。

Speech-to-Text 的定價方式

Speech-to-Text 的定價取決於 API 版本、頻道、批次方法，以及儲存空間等額外的 Google Cloud 服務費用。

Speech-to-Text V1 API

服務與功能

V1 僅為多區域提供資料落地權。模型包含短音訊、長音訊、電話和視訊。V1 不含稽核記錄。新客戶可獲得價值 $300 美元的免費抵免額，且每個月有 60 分鐘的配額可免費轉錄及分析音訊，不會耗用抵免額。

定價

$0.024 美元

每分鐘

Speech-to-Text V2 API

服務與功能

V2 為多區域和單一區域提供資料落地權。模型包含短音訊、長音訊、電話、視訊和 Chirp。V2 包含稽核記錄，並支援客戶自行管理的加密金鑰。

定價

$0.016 美元

每分鐘

查看 Speech-to-Text 的定價詳細資料。

Pricing Calculator

估算您每個月的 Speech-to-Text 費用，包括特定區域的定價和相關費用。

估算費用

客製化報價

貴機構如需索取客製化的報價，請與我們的銷售團隊聯絡。

索取報價

開始進行概念驗證

Speech-to-Text

使用 Google AI 將語音轉成文字

產品亮點

進階 Speech AI

支援 125 種語言和方言

用於語音轉錄的預先訓練或可自訂模型

立即可用的法規與安全性法規遵循功能

AI 技術輔助的語音辨識和語音轉錄

串流語音辨識

語音調整

Speech-to-Text 部署於地端

多聲道辨識

具備雜訊處理功能

特定領域專用的模型

內容篩選

語音轉錄評估

自動加上標點符號 (Beta 版)

說話者分段標記

Speech-to-Text 有三種主要的語音辨識方法，分別是同步、非同步和串流。根據是否需要語音轉錄，這三種方法會以後續處理、定期或即時的方式傳回文字結果。簡單來說，您只要輸入音訊資料，然後接收文字回應。

測試 Speech-to-Text API

轉錄音訊內容

建立音訊轉錄

教學課程、快速入門導覽課程和研究室

建立音訊轉錄

運用 AI 技術的字幕影片

使用 AI 製作影片字幕

教學課程、快速入門導覽課程和研究室

使用 AI 製作影片字幕

在應用程式中新增 Speech-to-Text

如何將 Speech-to-Text 新增至應用程式

教學課程、快速入門導覽課程和研究室

如何將 Speech-to-Text 新增至應用程式

將音訊翻譯成文字

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

教學課程、快速入門導覽課程和研究室

使用 Google Cloud API 合成語音、轉為文字及進行翻譯

Pricing Calculator

客製化報價

開始進行概念驗證

新客戶可以獲得最高 $300 美元的免費抵免額，盡情體驗 Speech-to-Text 和其他 Google Cloud 產品

要執行大型專案嗎？

Speech-to-Text 部署於地端

Speech-to-Text 基本知識

Speech-to-Text 程式碼範例