快來看看 Google Cloud Next 大會的最新公告。立即觀看
跳至
Speech-to-Text

Speech-to-Text

您可以透過採用 Google AI 研究和技術精華的 API,將語音準確轉換為文字。

新客戶可以獲得價值 $300 美元的免費抵免額,盡情體驗 Speech-to-Text。所有客戶每月都能免費轉錄及分析 60 分鐘的音訊,且不會耗用抵免額。

  • 將內容準確轉錄為字幕

  • 讓語音大顯神威,打造更優質的使用者體驗

  • 從客戶互動資料取得深入分析結果,提升服務品質

  • 參閱控制台中的教學課程,瞭解如何快速上手

優點

絕佳準確率

運用 Google 最先進的深度學習類神經網路演算法,提供自動語音辨識功能 (ASR)。

輕鬆自訂模型

透過 Speech-to-Text 的使用者介面製作及管理自訂資源,並進行實驗。

靈活部署模型

您可以在任何所需位置部署 ASR 技術:雲端環境可使用 API,地端部署系統則能使用 Speech-to-Text 部署於地端

示範

實際運用 Speech-to-Text

如同以下示範,您可以使用 Speech-to-Text API,輕鬆將語音轉錄技術融入應用程式中。

主要功能與特色

主要功能與特色

語音調整

您可以輸入提示,在轉錄冷僻和特定領域專用的字詞或詞組時,提高轉錄準確率;也可以使用類別將口述數字自動轉換為地址、年份或貨幣金額等等。

輕鬆比較品質

透過簡單易用的使用者介面來進行語音實驗,並嘗試不同設定來取得最佳品質和準確率。

裝置端語音

無論是否連上網際網路,都能直接在任何裝置上執行 Google Cloud 語音演算法,讓使用者瞭解自己的語音資料只會留在裝置中,不會外流。

Speech-to-Text 的基礎模型

您可以透過採用 Chirp 的語音模型,為全球目標對象建構支援語音功能的應用程式。Chirp 是以數百萬小時的音訊資料和數十億個文句訓練而成,是 Google Cloud 的語音基礎模型。

查看所有功能與特色

說明文件

教學課程和入門資源

教學課程

控制台中的 Speech-to-Text 教學課程

瞭解如何將 Speech-to-Text 新增至現有應用程式。透過控制台中的教學課程,瞭解如何快速上手。
Google Cloud 基本資訊

Speech-to-Text 基本知識

瞭解 Speech-to-Text 的基本概念。
快速入門導覽課程

快速入門導覽課程:使用 Speech-to-Text 使用者介面

瞭解如何設定專案與授權、建立和修正語音轉錄稿,以及如何在控制台中使用這項設定。
快速入門導覽課程

快速入門導覽課程:使用 gcloud 工具

使用 gcloud 工具,透過指令列將音訊轉錄要求傳送至 Speech-to-Text。
最佳做法

最佳做法

查看透過 Speech-to-Text 轉錄音訊的最佳做法。
教學課程

試用機器學習技術

查看 Speech-to-Text 的教學課程、程式碼研究室和其他資源。
Google Cloud 基本資訊

支援的語言

瞭解 Speech-to-Text 支援的語言,以及各種語言可用的功能和辨識模型。
Google Cloud 基本資訊

Speech-to-Text 部署於地端

進一步瞭解如何使用 Speech-to-Text 部署於地端,輕鬆將 Google 的語音辨識技術整合至您的地端部署解決方案。

找不到所需資訊嗎?

使用案例

使用案例

用途
提升客戶服務品質

將 IVR (互動式語音回應) 和虛擬服務專員對話功能導入客服中心,打造更強大的客戶服務系統。分析對話資料,取得更多深入分析結果,進一步瞭解通話內容和您的客戶。Contact Center AI 這個功能強大的 Google Cloud 解決方案已採用 Speech-to-Text 及 Speech-to-Text 的強化版電話通話模型。

工作流程:資料從「客服中心音訊資料」傳出,途中經過多項 Google Cloud 產品:從 Cloud Storage 傳送至 Speech-to-Text API 進行 (1) 轉錄,接著流向 Natural Language API 加以 (2) 分析,再傳至 Cloud Data Loss Prevention 以 (3) 遮蓋 PII,最後流向 BigQuery。在 BigQuery 和「視覺化呈現通話資料」之間有雙向資料流,分別為 (4) 儲存和 (5) 查詢及視覺化呈現。
用途
提供語音控制機制

導入語音指令 (例如「調高音量」) 和語音搜尋 (例如說出「巴黎的氣溫幾度?」) 功能,再搭配使用 Text-to-Speech API,在 IoT (物聯網) 應用程式中提供支援語音功能的體驗。

使用 Speech-to-Text API 的語音控制工作流程。流程從 (1) 使用者語音指令開始,接著傳入使用者裝置。裝置 (具備 (0) 專屬安全身分) 與 Cloud IoT Core 之間有雙向資料流。裝置與 Cloud Functions 之間也有雙向資料流,資料接著透過 Speech-to-Text API 進行 (2) 轉錄,再流向 AutoML Natural Language (3) 擷取意圖與實體,最後返回 Cloud Functions 和使用者裝置。
用途
轉錄多媒體內容

透過轉錄音訊和影片來提供字幕,以提高目標對象觸及率及改善體驗,也可以為串流內容新增即時字幕。我們的影片語音轉錄模型採用與 YouTube 影片字幕功能相似的機器學習技術,因此相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕。

轉錄多媒體內容的工作流程:輸入音訊串流經由 (1) 即時字幕產生作業,依序傳送至 Google Kubernetes Engine 和 Speech-to-Text API,接著經由 (2) 轉錄內容評估作業,依序傳送至深度學習 VM 和 Firestore,最後送交內容審核團隊,或是經 (3) 儲存及運用後傳送至字幕播送裝置。

所有功能與特色

所有功能與特色

包含全球詞彙
Speech-to-Text 的語言支援範圍相當廣闊 (超過 125 種語言和方言),可滿足全球使用者的需求。
串流語音辨識
API 處理完從應用程式麥克風串流輸入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。
語音調整
您可以輸入提示來自訂語音辨識功能,以利轉錄特定領域專用的字詞和冷僻詞彙,提高特定字詞或詞組的轉錄準確率,並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。
Speech-to-Text 部署於地端
完整控管基礎架構和受保護的語音資料,並在私人資料中心以地端部署的方式使用 Google 的語音辨識技術。如要開始使用,請聯絡銷售人員
多聲道辨識
Speech-to-Text 可以在多聲道的情況 (例如視訊會議) 下辨識出各個聲道,然後依據發言順序註記轉錄結果。
具備雜訊處理功能
Speech-to-Text 可以處理多種環境雜訊,因此您不必另外消除噪音。
特定領域專用的模型
對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。
內容篩選
不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容,並在文字結果中過濾掉不雅字詞。
語音轉錄評估
上傳您的語音資料並透過無程式碼工具轉錄。接著,即可對設定進行疊代來評估品質。
自動加上標點符號 (Beta 版)
Speech-to-Text 可以在轉錄結果中加上正確的標點符號,例如逗號、問號和句號。
說話者分段標記 (Beta 版)
系統會自動預測對話中的每句話是由誰說出,您可以依據這項預測結果判斷說話者的身分。

定價

定價

Speech-to-Text 服務會根據每個月成功處理的語音量,以秒為單位計費。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。