Speech-to-Text

您可以透過採用 Google AI 技術的 API 將語音準確轉換為文字。

  • check_circle_filled_black_24dp (1)

    即時轉錄內容或從已儲存的檔案中轉錄內容

  • check_circle_filled_black_24dp (1)

    透過語音指令提供更優質的產品使用體驗

  • check_circle_filled_black_24dp (1)

    從客戶互動資料取得深入分析結果,提升服務品質

優點

絕佳準確率

運用 Google 最先進的深度學習類神經網路演算法,提供自動語音辨識功能 (ASR)。

服務範圍遍及全球

語音辨識功能支援超過 125 種語言和方言,可滿足世界各地使用者的需求。

彈性部署

您可以在任何位置部署語音辨識技術:雲端環境可使用 API,內部部署系統則能使用文字轉語音部署於地端

示範

實際運用 Speech-to-Text

在以下示範中,您可以使用 Speech-to-Text API,輕鬆將語音轉錄技術融入應用程式中。

主要功能與特色

主要功能與特色

語音調整

您可以輸入指示,提高特定字詞或詞組的轉錄準確率,藉由自訂語音辨識功能轉錄特定領域專用的字詞和冷僻詞彙。並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。

特定領域專用的模型

對於語音控制、電話和影片語音轉錄等領域的特定品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。

串流語音辨識

API 處理完從應用程式麥克風串流傳入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。

文字轉語音部署於地端

在私人資料中心以內部部署的方式使用 Google 的語音辨識技術,完整控管基礎架構和受保護的語音資料。如要開始使用,請聯絡銷售人員

查看所有功能與特色

客戶

最新資訊

最新資訊

訂閱 Google Cloud 電子報,掌握產品動態、活動資訊和特價優惠等最新消息。

說明文件

說明文件

Google Cloud 基本資訊
Speech-to-Text 基本資訊

瞭解 Speech-to-Text 的基本概念。

快速入門導覽課程
快速入門導覽課程:使用 gcloud 工具

使用 gcloud 工具,透過指令列將音訊轉錄要求傳送至 Speech-to-Text。

最佳做法
最佳做法

查看透過 Speech-to-Text 轉錄音訊的最佳做法。

Google Cloud 基本資訊
支援的語言

瞭解 Speech-to-Text 支援的語言,以及各種語言適用的功能和辨識模型。

Google Cloud 基本資訊
文字轉語音部署於地端

進一步瞭解如何使用文字轉語音部署於地端,輕鬆將 Google 的語音辨識技術整合至您的內部部署解決方案。

用途

用途

用途
提升客戶服務品質

將 IVR (互動式語音回應) 和代理程式對話功能新增至客服中心,藉此提高客戶服務系統的品質。分析對話資料,取得更多深入分析結果,進一步瞭解通話內容和您的客戶。Google Cloud 功能強大的解決方案 Contact Center AI 已採用 Speech-to-Text 及其強化版通話模型。

使用搭載 Speech-to-Text 技術的 Contact Center AI 提高客戶服務品質
用途
提供語音控制機制

導入語音指令 (例如「調高音量」) 和語音搜尋 (例如說出「巴黎的氣溫幾度?」) 功能,再搭配使用 Text-to-Speech API,在 IoT (物聯網) 應用程式中提供支援語音功能的體驗。

使用 Speech-to-Text API 的語音控制工作流程
用途
轉錄多媒體內容

轉錄音訊和影片並提供字幕,藉此提高目標對象觸及率及改善體驗。為串流內容新增即時字幕 (Subtitle)。我們的影片語音轉錄模型採用與 YouTube 影片字幕功能相似的機器學習技術,因此相當適合用來為影片和/或說話者眾多的內容建立索引或提供字幕。

轉錄多媒體內容的工作流程

所有功能與特色

所有功能與特色

包含全球詞彙 Speech-to-Text 的語言支援範圍相當廣闊 (超過 125 種語言和方言),可滿足全球使用者的需求。
串流語音辨識 API 處理完從應用程式麥克風串流傳入的音訊內容,或是以預先錄製的音訊檔案 (內嵌或透過 Cloud Storage 均可) 傳送的音訊內容之後,使用者就能即時接收語音辨識結果。
語音調整 您可以輸入指示,提高特定字詞或詞組的轉錄準確率,藉由自訂語音辨識功能轉錄特定領域專用的字詞和冷僻詞彙,並使用各種類別將口述數字自動轉換為地址、年分和貨幣金額等。
文字轉語音部署於地端 在私人資料中心以內部部署的方式使用 Google 的語音辨識技術,完整控管基礎架構和受保護的語音資料。如要開始使用,請聯絡銷售人員
多頻道辨識 Speech-to-Text 可以在多頻道的情況 (例如視訊會議) 下辨識出各個頻道,然後依據發言順序註記轉錄結果。
具備雜訊處理功能 Speech-to-Text 可以處理多種環境雜訊,因此您不必另外消除噪音。
特定領域專用的模型 對於語音控制、電話和影片語音轉錄等領域的特定品質需求,我們已訓練出多個最佳化模型供您選用。舉例來說,我們的強化版通話模型是專門針對電話語音而調整 (包括取樣率為 8khz 的電話錄音)。
內容篩選 不雅用語篩選器可協助您在音訊資料中偵測不當或不專業的內容,並在文字結果中過濾掉不雅字詞。
自動偵測語言 (Beta 版) 您最多可以指定四組語言代碼,讓 Speech-to-Text 正確識別多語言情境中使用的語言。
自動加上標點符號 (Beta 版) Speech-to-Text 可以在轉錄結果中加上正確的標點符號,例如逗號、問號和句號。
說話者分段標記 (Beta 版) 系統會自動預測對話中的每句話是由哪一位使用者說出,您可以依據這項預測結果判斷說話者的身分。

定價

定價

每月 Speech-to-Text 成功處理的前 60 分鐘音訊免費,之後以 15 秒為單位計費。具體費率會因使用的模型、是否記錄資料及聲道數量而有不同。