Cloud Text-to-Speech

透過機器學習技術將文字轉為語音。

免費試用 查看說明文件

高傳真語音合成

Google Cloud Text-to-Speech 可以將文字轉換為超過 180 種擬真語音,當中包含 30 多種語言和方言。這項功能運用了語音合成領域 (WaveNet) 的創新研究和 Google 強大的類神經網路,可提供高傳真音訊。有了這個易於使用的 API,您就能將客戶服務、裝置互動和其他應用情境轉為語音,與使用者進行臨場感十足的互動。

高傳真語音合成

立即將文字轉換為語音

自由輸入內容,選取語言,然後按一下「Speak It」即可聆聽。

採用 Google 的機器學習技術

利用先進的深度學習類神經網路演算法,將文字合成為各式各樣的語音和語言。類神經網路是以 Google 的語音合成專業技術為基礎。

Google 機器學習

180 多種語音供您選擇

Google Cloud Text-to-Speech 提供超過 180 種語音選項,包括 30 多種語言和方言,能讓開發人員選擇最適合所需用途的語音。

180 多種語音供您選擇

內含 WaveNet 技術的專屬使用權

DeepMind 在機器學習模型方面的研究已取得突破性成果,產出的語音內容能夠更自然地模擬人類的發音與音調,與真實人聲的差距已降低 70%。Cloud Text-to-Speech 提供 90 多種 WaveNet 語音的專屬使用權,日後也會隨著時間新增更多語音種類。

DeepMind 的 WaveNet 語音

輕鬆整合現有應用程式和裝置

Cloud Text-to-Speech 支援任何可傳送 REST 或 gRPC 要求的應用程式或裝置,包括手機、桌上型電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。

輕鬆整合現有應用程式和裝置

支援多種常見用途

易於使用的 Google Cloud Text-to-Speech API 提供了彈性佳的解決方案,可以針對不同用途創造出自然流暢的體驗。常見用途包括客服中心的自動化程序、IoT 裝置的互動式回應,或是將文字內容轉換為可以聆聽的音訊。

支援多種常見用途
Text-to-Speech 符號

Cloud Text-to-Speech 功能與特色

支援多種語言
提供 180 種語音選項,包括 30 多種語言和方言,不久後也會推出更多語音種類。
WaveNet 語音
獨家採用 DeepMind WaveNet 的多語言服務,讓您享受最自然流暢的語音功能。
支援文字與 SSML
您可以使用 SSML 標籤來自訂語音,例如加入停頓點、數字、日期和時間等格式設定,以及其他發音指示。
微調誦讀速度
您可以自訂誦讀速度,調整為比正常速度快或慢 4 倍。
微調音調
您可以自訂所選語音的音調,最多可以比預設輸出音訊增加或減少 20 個半音。
控制音量增幅
輸出音量最多可以提高至 16db 或降低至 -96db。
多種音訊格式
多種音訊格式供您選擇,包括 mp3、Linear16 和 Ogg Opus。
音訊設定檔
可針對用來播放語音的喇叭類型進行最佳化處理,例如耳罩式耳機或電話聽筒。

Cloud Text-to-Speech 計價方式

高傳真語音合成

您可以使用 100 萬個字元的免費方案。超過這個配額之後,系統就會依據 Cloud Text-to-Speech 實際處理的文字數量向您收費 (計費單位為每 100 萬個字元)。詳情請參閱定價指南

功能 每月免費方案 付費用量
標準 (非 WaveNet) 音訊 0 至 400 萬個字元 每 100 萬個字元 $4.00 美元
WaveNet 語音 0 至 100 萬個字元 每 100 萬個字元 $16.00 美元
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
Text-to-Speech 標誌
本頁所列產品或功能仍在 Beta 版測試階段。如要進一步瞭解產品的推出階段,請參閱這個網頁
Cloud AI 產品符合這個頁面所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Text-to-Speech API