Cloud Text-to-Speech

透過機器學習技術將文字轉為語音。

免費試用查看說明文件

高傳真語音合成

Google Cloud Text-to-Speech 可以將文字轉換為超過 180 種擬真語音,當中包含 30 多種語言和方言。這項功能運用了語音合成領域 (WaveNet) 的創新研究和 Google 強大的類神經網路,可提供高傳真音訊。有了這個易於使用的 API,您就能將客戶服務、裝置互動和其他應用情境轉為語音,與使用者進行臨場感十足的互動。

高傳真語音合成

迅速將文字轉換為語音

自由輸入內容、選取所需語言,然後按一下「Speak It」即可聆聽。

採用 Google 的機器學習技術

利用先進的深度學習類神經網路演算法,將文字合成為各式各樣的語音和語言。類神經網路是以 Google 的語音合成專業技術為基礎。

Google 的機器學習技術

180 多種語音供您選擇

Google Cloud Text-to-Speech 提供超過 180 種語音選項 (包括 30 多種語言和方言),可讓開發人員選擇最適合所需用途的語音。

180 多種語音供您選擇

內含 WaveNet 技術的專屬使用權

DeepMind 在機器學習模型方面的研究已取得突破性成果,產出的語音內容能夠更自然地模擬人類的發音與音調,與真實人聲的差距已降低 70%。Cloud Text-to-Speech 提供 90 多種 WaveNet 語音的專屬使用權,日後也會隨著時間新增更多語音種類。

DeepMind 提供的 WaveNet 語音

輕鬆整合至現有的應用程式和裝置

Cloud Text-to-Speech 支援任何可傳送 REST 或 gRPC 要求的應用程式或裝置,包括手機、桌上型電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。

輕鬆整合至現有的應用程式和裝置

支援多種常見用途

易於使用的 Google Cloud Text-to-Speech API 提供了彈性佳的解決方案,可以針對不同用途創造出自然流暢的體驗。常見用途包括客服中心的自動化程序、IoT 裝置的互動式回應,或是將文字內容轉換為可以聆聽的音訊。

支援多種常見用途
Text-to-Speech 符號

Cloud Text-to-Speech 的功能與特色

多種語言
提供 180 個語音選項,包括 30 多種語言和方言,不久後也會推出更多語音種類。
WaveNet 語音
獨家採用 DeepMind WaveNet 的多語言服務,讓您享受最自然流暢的語音功能。
文字與 SSML 支援
您可以使用 SSML 標記來自訂語音,例如加入停頓點、數字、日期與時間格式設定,以及其他發音指示。
誦讀速度微調
您可以自訂誦讀速度,調整為比正常速度快或慢 4 倍。
音調微調
您可以自訂所選語音的音調,最多可以比預設輸出音訊增加或減少 20 個半音。
音量增益控制
輸出音量最多可以提高 16db 或降低 96db。
多種音訊格式
多種音訊格式供您選擇,包括 mp3、Linear16 和 Ogg Opus。
音訊設定檔
可針對用來播放語音的喇叭類型進行最佳化處理,例如耳罩式耳機或電話聽筒。

Cloud Text-to-Speech 定價

高傳真語音合成

免費方案到期之後,系統會依據 Cloud Text-to-Speech 處理的文字量向您收費 (計費單位為 100 萬個字元)。詳情請參閱定價指南

功能 每月免費方案 付費用量
標準 (非 WaveNet) 音訊 0 至 400 萬個字元 每 100 萬個字元 $4.00 美元
WaveNet 音訊 0 至 100 萬個字元 每 100 萬個字元 $16.00 美元
如果您使用美元以外的貨幣付費,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
Text-to-Speech 標誌
本頁所列產品或功能仍在 Beta 版測試階段。如要進一步瞭解產品推出的各個階段,請參閱這個網頁
Cloud AI 產品符合這個頁面中列出的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。