API 採用 Google AI 先進技術,將文字轉換為自然流暢的語音。
新客戶可獲得高達 $300 美元的免費抵免額,使用 Text-to-Speech 和其他 Google Cloud 產品。
運用自然 AI 語音,智慧發言,流暢回覆
整合文字轉語音功能,打造應用程式的語音介面
依據使用者偏好的語音和語言,訂製風格獨具的訊息及音訊
優點
高保真語音
部署 Google 劃時代的創新技術,生成語調宛如真人的語音。此 API 融入 DeepMind 的語音合成專業,帶給您擬真的語音。
多元豐富的語音選項
涵蓋 380 多種語音選項,支援超過 75 種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可挑選最適合使用者和應用程式的語音。
與眾不同的語音
創造品牌特色語音,在所有客戶接觸點上呈現獨特風格,不共用其他機構的語音。
示範
自由輸入內容、選取所需語言,然後點按「Speak It」即可聆聽。
主要功能與特色
Gemini-TTS 能根據文字合成單人或多人語音,同時保留情境脈絡,簡短片段、長篇內容都能處理。使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合),就能精準指定風格、口音、語速、語氣和情緒表達方式。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
運用以 AudioML 為基礎的最新自然對話語音,打造互動活躍的代理。這些語音具備絕佳音質、低延遲串流,呈現自然聽感,融合人類口語停頓、情感表現和精準語調。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
只要給予 10 秒的音訊,就能建立個人化語音模型,適合用於電玩遊戲、有聲書、Podcast 等,支援的語言/地區組合超過 30 種。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
使用簡單的純文字指令碼、SSML 標記,甚至強大的自然語言提示詞,調整數字和時間格式、呈現方式、發音和情緒。實際支援的功能視模型而定。前往 Media Studio 或參閱說明文件,即可瞭解詳情。
最新資訊
訂閱 Google Cloud 電子報,即時掌握產品動態、活動資訊和特價優惠等最新消息。
說明文件
使用案例
裝置可當做文字閱讀器使用,發出擬真語音,與人自然溝通。搭配 Speech-to-Text 和 Natural Language,建構端對端語音介面,輕鬆又密切的互動,提升使用者體驗。
系統可輕鬆讀出電子節目表的文字,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。查看電子節目表示範。
輕鬆將文字轉語音功能導入電子節目表,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。
所有功能與特色
| 串流音訊合成 | AI 代理透過串流音訊合成功能,帶來超低延遲語音,對話互動流暢而即時。 |
| 長音訊合成 | 使用長音訊合成功能,以非同步方式合成輸入內容,最高可達 100 萬位元組。 |
| 語音和語言選項 | 涵蓋 75 種語言和方言、380 多種語音,而且即將推出更多選項。 |
| 文字與 SSML 支援 | 使用 SSML 標記來自訂語音,例如加入停頓點、數字、日期與時間格式設定,以及其他發音指示。 |
| 音調微調 | 自訂所選語音的音調,最多可將預設音調升高或降低 20 個半音。 |
| 誦讀速度微調 | 朗讀速度可調整為比正常速度快或慢 4 倍。 |
| 音量增益控制 | 輸出音量最多能提高 16 db 或降低 96 db。 |
| 整合式 REST 和 gRPC API | 輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置,包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。 |
| 多種音訊格式 | 將文字轉換為 MP3、Linear16、OGG Opus 等多種音訊格式。 |
| 音訊設定檔 | 可針對播放語音的喇叭類型執行最佳化處理,例如耳罩式耳機或電話聽筒。 |
定價
Text-to-Speech 的計費方式,是根據每月傳送至這項服務進行音訊合成的字元數。WaveNet 語音每月前 100 萬個字元免費;標準 (非 WaveNet) 語音則每月前 400 萬個字元免費。免費方案的額度用完後,則依據 Text-to-Speech 處理的文字量收費,計費單位為 100 萬個字元。
如果使用美元以外的貨幣付費,將以 Google Cloud SKU 頁面列出的相應貨幣價格計費。