高傳真語音合成
Google Cloud Text-to-Speech 可以將文字轉換為超過 180 種擬真語音,當中包含 30 多種語言和方言。這項功能運用了語音合成領域 (WaveNet) 的創新研究和 Google 強大的類神經網路,可提供高傳真音訊。有了這個易於使用的 API,您就能將客戶服務、裝置互動和其他應用情境轉為語音,與使用者進行臨場感十足的互動。
立即將文字轉換為語音
自由輸入內容,選取語言,然後按一下「Speak It」即可聆聽。
採用 Google 的機器學習技術
利用先進的深度學習類神經網路演算法,將文字合成為各式各樣的語音和語言。類神經網路是以 Google 的語音合成專業技術為基礎。
180 多種語音供您選擇
Google Cloud Text-to-Speech 提供超過 180 種語音選項,包括 30 多種語言和方言,能讓開發人員選擇最適合所需用途的語音。
內含 WaveNet 技術的專屬使用權
DeepMind 在機器學習模型方面的研究已取得突破性成果,產出的語音內容能夠更自然地模擬人類的發音與音調,與真實人聲的差距已降低 70%。Cloud Text-to-Speech 提供 90 多種 WaveNet 語音的專屬使用權,日後也會隨著時間新增更多語音種類。
輕鬆整合現有應用程式和裝置
Cloud Text-to-Speech 支援任何可傳送 REST 或 gRPC 要求的應用程式或裝置,包括手機、桌上型電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。
支援多種常見用途
易於使用的 Google Cloud Text-to-Speech API 提供了彈性佳的解決方案,可以針對不同用途創造出自然流暢的體驗。常見用途包括客服中心的自動化程序、IoT 裝置的互動式回應,或是將文字內容轉換為可以聆聽的音訊。
Cloud Text-to-Speech 功能與特色
- 支援多種語言
- 提供 180 種語音選項,包括 30 多種語言和方言,不久後也會推出更多語音種類。
- WaveNet 語音
- 獨家採用 DeepMind WaveNet 的多語言服務,讓您享受最自然流暢的語音功能。
- 支援文字與 SSML
- 您可以使用 SSML 標籤來自訂語音,例如加入停頓點、數字、日期和時間等格式設定,以及其他發音指示。
- 微調誦讀速度
- 您可以自訂誦讀速度,調整為比正常速度快或慢 4 倍。
- 微調音調
- 您可以自訂所選語音的音調,最多可以比預設輸出音訊增加或減少 20 個半音。
- 控制音量增幅
- 輸出音量最多可以提高至 16db 或降低至 -96db。
- 多種音訊格式
- 多種音訊格式供您選擇,包括 mp3、Linear16 和 Ogg Opus。
- 音訊設定檔
- 可針對用來播放語音的喇叭類型進行最佳化處理,例如耳罩式耳機或電話聽筒。
Cloud Text-to-Speech 計價方式
高傳真語音合成
您可以使用 100 萬個字元的免費方案。超過這個配額之後,系統就會依據 Cloud Text-to-Speech 實際處理的文字數量向您收費 (計費單位為每 100 萬個字元)。詳情請參閱定價指南。
| 功能 | 每月免費方案 | 付費用量 |
|---|---|---|
| 標準 (非 WaveNet) 音訊 | 0 至 400 萬個字元 | 每 100 萬個字元 $4.00 美元 |
| WaveNet 語音 | 0 至 100 萬個字元 | 每 100 萬個字元 $16.00 美元 |