這個 API 採用先進 Google AI 技術,可將文字轉換為自然流暢的語音。
新客戶可獲得高達 $300 美元的免付費抵免額,試用 Text-to-Speech 和其他 Google Cloud 產品。
運用自然 AI 語音,智慧發言,流暢回覆
整合文字轉語音功能,為應用程式打造語音介面
依據使用者偏好的聲音和語言,自訂風格獨具的訊息及音訊
優點
高保真語音
部署 Google 劃時代的創新技術,生成語調宛如真人的語音。此 API 融入 DeepMind 的語音合成專業知識,帶給您擬真的聲音。
多元豐富的聲音選項
涵蓋 380 多種聲音選項,支援超過 75 種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可挑選最適合使用者和應用程式的語音。
與眾不同的聲音
創造具備品牌特色的聲音,在所有客戶接觸點上呈現獨特風格,不用與其他機構使用相同的語音。
示範
自由輸入內容、選取所需語言,然後點按「Speak It」即可聆聽。
主要功能與特色
Gemini-TTS 能根據文字合成單人或多人說話的語音,同時保留情境脈絡,不管是簡短片段還是長篇內容都能處理。使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合),就能精準指定風格、口音、語速、語氣和情緒表達方式。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
運用以 AudioML 為基礎的最新自然對話語音,打造互動活躍的代理。這些語音具備絕佳音質、低延遲串流,說話方式自然,融合人類口語停頓、情感表現和精準語調。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
只要 10 秒的錄音檔,就能建立個人化語音模型,適合用於電玩遊戲、有聲書、Podcast 等,支援的語言/地區組合超過 30 種。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
使用簡單的純文字指令碼、SSML 標記,或甚至強大的自然語言提示詞,調整數字和時間格式、呈現方式、發音和情緒。實際支援的功能視模型而定。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
說明文件
使用案例
Customer Experience Agent Studio 的語音機器人可動態生成語音,而非播放預錄的靜態語音,能提供更優質的客戶服務語音體驗。以高品質的合成語音與來電者互動,個人化服務親切又有熟悉感。
系統可輕鬆讀出電子節目表的文字,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。試用電子節目表示範。
輕鬆將文字轉語音功能導入電子節目表,帶來更優質的使用者體驗,打造無障礙的服務和應用程式。
所有功能與特色
| 串流音訊合成 | AI 代理透過串流音訊合成功能,帶來超低延遲語音,對話互動流暢而即時。 |
| 長音訊合成 | 使用長音訊合成功能,以非同步方式合成輸入內容,最高可達 100 萬位元組。 |
| 語音和語言選項 | 涵蓋 75 種語言和方言、380 多種聲音,而且即將推出更多選項。 |
| 文字與 SSML 支援 | 使用 SSML 標記來自訂語音,加入停頓點、數字、日期與時間格式設定,以及其他發音指示。 |
| 音調微調 | 自訂所選聲音的音調,且最多可升高或降低 20 個半音。 |
| 誦讀速度微調 | 朗讀速度可調整為比正常快或慢 4 倍。 |
| 音量增益控制 | 輸出音量最多能提高 16 db 或降低 96 db。 |
| 整合式 REST 和 gRPC API | 輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置,包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。 |
| 多種音訊格式 | 將文字轉換為 MP3、Linear16、OGG Opus 等多種音訊格式。 |
| 音訊設定檔 | 可針對播放語音的喇叭類型執行最佳化處理,例如耳罩式耳機或電話聽筒。 |
定價
Text-to-Speech 的計費方式,是根據每月傳送至這項服務進行音訊合成的字元數計算。WaveNet 語音每月前 100 萬個字元免付費;標準 (非 WaveNet) 語音則每月前 400 萬個字元免付費。免費方案額度用完後,則依據 Text-to-Speech 處理的文字量收費,計費單位為 100 萬個字元。
如果使用美元以外的貨幣付費,則會以 Google Cloud SKU 頁面列出的相應貨幣價格計費。