Speech-to-Text

您可以透過採用 Google AI 技術的 API 將語音準確轉換為文字。

  • action/check_circle_24px Created with Sketch.

    即時轉錄內容或從已儲存的檔案中轉錄內容

  • action/check_circle_24px Created with Sketch.

    在產品中透過語音指令提供更優質的使用者體驗

  • action/check_circle_24px Created with Sketch.

    從客戶互動資料取得深入分析結果,藉此提升服務品質

優點

絕佳準確率

運用 Google 最先進的深度學習類神經網路演算法,提供自動語音辨識功能 (ASR)。

服務範圍遍及全球

語音辨識功能支援超過 125 種語言和方言,可滿足世界各地使用者的需求。

彈性部署

您可以在任何位置部署語音辨識技術:雲端環境可使用 API,地端部署系統則能使用文字轉語音部署於地端

示範

實際運用 Speech-to-Text

在以下示範中,您可以使用 Speech-to-Text API,輕鬆將語音轉錄技術融入應用程式中。

主要功能與特色

主要功能與特色

語音調整

您可以輸入指示,提高特定字詞或詞組的轉錄準確率,藉由自訂語音辨識功能轉錄特定領域專用的字詞和冷僻詞彙。並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。

特定領域專用的模型

對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。

串流語音辨識

API 處理完從應用程式麥克風串流傳入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。

文字轉語音部署於地端

在私人資料中心以地端部署的方式使用 Google 的語音辨識技術,完整控管基礎架構和受保護的語音資料。如要開始使用,請聯絡銷售人員

查看所有功能與特色

客戶

最新資訊

最新資訊

訂閱 Google Cloud 電子報,即時掌握產品動態、活動資訊和特價優惠等最新消息。

說明文件

說明文件

Google Cloud 基本資訊
Speech-to-Text 基本資訊

瞭解 Speech-to-Text 的基本概念。

快速入門導覽課程
快速入門導覽課程:使用 gcloud 工具

使用 gcloud 工具,透過指令列將音訊轉錄要求傳送至 Speech-to-Text。

最佳做法
最佳做法

查看透過 Speech-to-Text 轉錄音訊的最佳做法。

Google Cloud 基本資訊
支援的語言

瞭解 Speech-to-Text 支援的語言,以及各種語言適用的功能和辨識模型。

Google Cloud 基本資訊
文字轉語音部署於地端

進一步瞭解如何使用文字轉語音部署於地端,輕鬆將 Google 的語音辨識技術整合至您的地端部署解決方案。

用途

用途

用途
提升客戶服務品質

將 IVR (互動式語音回應) 和虛擬服務專員對話功能導入客服中心,打造更強大的客戶服務系統。分析對話資料,取得更多深入分析結果,進一步瞭解通話內容和您的客戶。Google Cloud 功能強大的解決方案 Contact Center AI 已採用 Speech-to-Text 及其強化版通話模型。

工作流程:資料從「聯絡中心音訊資料」傳出,途中經過多項 Google Cloud 產品:從 Cloud Storage 透過 Speech-to-Text API (1) 轉錄至 Natural Language API,然後以 Cloud Data Loss Prevention (2) 分析,最後使用 BigQuery (3) 遮蓋 PII。在 BigQuery 和「視覺化呈現通話資料」之間有雙向資料流,分別為 (4) 儲存和 (5) 查詢及視覺化呈現。
用途
提供語音控制機制

導入語音指令 (例如「調高音量」) 和語音搜尋 (例如說出「巴黎的氣溫幾度?」) 功能,再搭配使用 Text-to-Speech API,在 IoT (物聯網) 應用程式中提供支援語音功能的體驗。

使用 Speech-to-Text API 的語音控制工作流程。流程從 (1) 使用者語音指令開始,接著傳入使用者裝置。裝置 (具備 (0) 專屬安全身分) 與 Cloud IoT Core 之間有雙向資料流。裝置與 Cloud Functions 之間也有雙向資料流,資料接著透過 Speech-to-Text API (2) 進行轉錄,再流向 AutoML Natural Language (3) 擷取意圖與實體,最後返回 Cloud Functions 和使用者裝置。
用途
轉錄多媒體內容

轉錄音訊和影片並提供字幕,藉此提高目標對象觸及率及改善體驗。為串流內容新增即時字幕 (Subtitle)。我們的影片語音轉錄模型採用與 YouTube 影片字幕功能相似的機器學習技術,因此相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕。

轉錄多媒體內容的工作流程:輸入音訊串流透過 (1) 即時字幕傳送至 Google Kubernetes Engine,然後連結至 Speech-to-Text API,經過 (2) 評估轉譯內容依序傳送至深度學習 VM 和 Firestore,接著送交內容審核團隊,或是經過 (3) 儲存及運用傳送至播送字幕裝置。

所有功能與特色

所有功能與特色

包含全球詞彙 Speech-to-Text 的語言支援範圍相當廣闊 (超過 125 種語言和方言),可滿足全球使用者的需求。
串流語音辨識 API 處理完從應用程式麥克風串流傳入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。
語音調整 您可以輸入指示,提高特定字詞或詞組的轉錄準確率,藉由自訂語音辨識功能來轉錄特定領域專用的字詞和冷僻詞彙,並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。
文字轉語音部署於地端 在私人資料中心以地端部署的方式使用 Google 的語音辨識技術,完整控管基礎架構和受保護的語音資料。如要開始使用,請聯絡銷售人員
多頻道辨識 Speech-to-Text 可以在多頻道的情況 (例如視訊會議) 下辨識出各個頻道,然後依據發言順序註記轉錄結果。
具備雜訊處理功能 Speech-to-Text 可以處理多種環境雜訊,因此您不必另外消除噪音。
特定領域專用的模型 對於語音控制、電話和影片語音轉錄等特定領域的品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。
內容篩選 不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容,並在文字結果中過濾掉不雅字詞。
自動偵測語言 (Beta 版) 您最多可以指定四組語言代碼,讓 Speech-to-Text 正確識別多語言情境中使用的語言。
自動加上標點符號 (Beta 版) Speech-to-Text 可以在轉錄結果中加上正確的標點符號,例如逗號、問號和句號。
說話者分段標記 (Beta 版) 系統會自動預測對話中的每句話是由哪一位使用者說出,您可以依據這項預測結果判斷說話者的身分。

定價

定價

每月 Speech-to-Text 成功處理的前 60 分鐘音訊免費,之後以 15 秒為單位計費。具體費率會因使用的模型、是否記錄資料及聲道數量而有不同。