Cloud Text-to-Speech

採用機器學習技術,將文字轉換成語音。

免費試用 查看說明文件

高傳真語音合成

Google Cloud Text-to-Speech 可將文字轉換成 100 多種類似真人的語音,包括 20 多種語言和方言。這項功能運用了語音合成領域 (WaveNet) 的創新研究和 Google 強大的類神經網路,可提供高傳真的音訊。只要借助這個簡單好用的 API,您就能將客戶服務、裝置互動和其他應用情境轉為語音,與使用者進行宛如真人的互動。

高傳真語音合成

立即將文字轉換為語音

自由輸入內容,選取語言,然後按一下「Speak It」即可聆聽。

採用 Google 的機器學習技術

利用先進的深度學習類神經網路演算法,將文字合成為各式各樣的語音和語言。類神經網路是以 Google 的語音合成專業技術為基礎。

Google 機器學習

100 多種語音可供選擇

Google Cloud Text-to-Speech 提供 100 多種語音,包括 20 多種語言和方言,能讓開發人員選擇最適合所需用途的語音。

100 多種語音可供選擇

內含 WaveNet 技術的專屬使用權

DeepMind 在機器學習模型方面的研究已取得突破性成果,生成的語音能夠更自然地模擬出人類的話聲和發音,與人聲的差距已降低了 70%。Cloud Text-to-Speech 針對 50 多種 WaveNet 語音提供專屬使用權,日後也會隨時間新增更多語音種類。

DeepMind 的 WaveNet 語音

輕鬆整合現有應用程式和裝置

Cloud Text-to-Speech 可支援任何能夠傳送 REST 或 gRPC 要求的應用程式或裝置,包括手機、電腦、平板電腦及 IoT 裝置 (例如汽車、電視、喇叭)。

輕鬆整合現有應用程式和裝置

支援多種常見用途

Google Cloud Text-to-Speech 是簡單好用的 API,提供了彈性的解決方案,可為各種不同的用途創造出自然流暢的體驗。常見用途包括客服中心自動化程序、物聯網裝置的互動式回應,或是將文字轉換為可以聆聽的音訊。

支援多種常見用途
Text-to-Speech 符號

Cloud Text-to-Speech 功能

多種語言
提供 100 多種語音,包括 20 多種語言和方言,日後還會推出更多種類。
WaveNet 語音
獨家使用 DeepMind WaveNet 的多語言服務,享受最自然流暢的語音功能。
支援文字與 SSML
可使用 SSML 標籤自訂語音加入停頓、數字、日期及時間等格式設定,以及其他發音上的指示。
誦讀速度微調
可自訂誦讀速度,調整為比正常速度快或慢 4 倍。
音調微調
可自訂您所選語音的音調,最多可比預設輸出增加或減少 20 個半音。
音量增益控制
輸出音量最多可放大至 16db,或降低至 -96db。
多種音訊格式
多種音訊格式可供選擇,包括 mp3、Linear16 和 Ogg Opus。
音訊設定檔
可針對用於播放語音的喇叭類型進行最佳化處理,例如耳罩式耳機或電話線路。

Cloud Text-to-Speech 計價方式

高傳真語音合成

您可以使用 100 萬字元的免費方案,之後系統就會依據 Cloud Text-to-Speech 處理的文字量向您收費 (計費單位為百萬字元)。如需詳細資訊,請參閱定價指南

功能 每月免費方案 付費用量
標準 (非 WaveNet) 音訊 0 至 400 萬個字元 每 100 萬個字元 $4.00 美元
WaveNet 音訊 0 至 100 萬個字元 每 100 萬個字元 $16.00 美元
如果您使用美元以外的貨幣付款,系統將按照 Cloud Platform SKU 頁面上列出的相應貨幣價格來計費。
Text-to-Speech 標誌
本頁所列出的產品或功能可能仍在 Beta 測試階段。如要進一步瞭解產品推出的各個階段,請參閱這個網頁
Cloud AI 產品符合這個頁面所列的服務水準協議政策。這些產品的延遲時間或可用性保證可能與其他 Google Cloud 服務不同。

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Text-to-Speech API
需要協助嗎?請前往我們的支援網頁