跳至
Text-to-Speech

Text-to-Speech AI

API 採用 Google AI 先進技術,將文字轉換為自然流暢的語音。

新客戶可獲得高達 $300 美元的免費抵免額,使用 Text-to-Speech 和其他 Google Cloud 產品。

  • 運用自然 AI 語音,智慧發言,流暢回覆

  • 整合文字轉語音功能,打造應用程式的語音介面

  • 依據使用者偏好的語音和語言,訂製風格獨具的訊息及音訊

優點

高保真語音

部署 Google 劃時代的創新技術,生成語調宛如真人的語音。此 API 融入 DeepMind 的語音合成專業,帶給您擬真的語音。

多元豐富的語音選項

涵蓋 380 多種語音選項,支援超過 75 種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可挑選最適合使用者和應用程式的語音。

與眾不同的語音

創造品牌特色語音,在所有客戶接觸點上呈現獨特風格,不共用其他機構的語音。

示範

實際運用 Text-to-Speech

自由輸入內容、選取所需語言,然後點按「Speak It」即可聆聽。

主要功能與特色

主要功能與特色

Gemini-TTS

Gemini-TTS 能根據文字合成單人或多人語音,同時保留情境脈絡,簡短片段、長篇內容都能處理。使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合),就能精準指定風格、口音、語速、語氣和情緒表達方式。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

Chirp 3:HD 語音

運用以 AudioML 為基礎的最新自然對話語音,打造互動活躍的代理。這些語音具備絕佳音質、低延遲串流,呈現自然聽感,融合人類口語停頓、情感表現和精準語調。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

Chirp 3:即時自訂語音

只要給予 10 秒的音訊,就能建立個人化語音模型,適合用於電玩遊戲、有聲書、Podcast 等,支援的語言/地區組合超過 30 種。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

提示詞、文字和 SSML 支援

使用簡單的純文字指令碼、SSML 標記,甚至強大的自然語言提示詞,調整數字和時間格式、呈現方式、發音和情緒。實際支援的功能視模型而定。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

說明文件

說明文件

Quickstart

Gemini-TTS

瞭解如何使用 Gemini-TTS 精準控制語音合成,透過自然語言提示詞指定風格、語氣、語速和情緒表達方式。

Quickstart

Chirp 3:HD 語音總覽

瞭解如何透過「Chirp 3:HD 語音」合成能引發共鳴的逼真語音,並運用進階控制項,依編寫指令碼最佳做法微調音訊。

Quickstart

Chirp 3:即時自訂語音總覽

只要短短 10 秒的錄音檔,就能為組織打造獨特的個人化語音模型,快速生成個人化語音。

Tutorial

使用 SSML 朗讀地址

瞭解如何使用語音合成標記語言 (SSML) 朗讀地址文字檔案。

Google Cloud Basics

Text-to-Speech 基本資訊

介紹使用 Text-to-Speech API 的基本概念。

Google Cloud Basics

支援的語音和語言

瀏覽這項產品的指南和資源。

找不到所需資訊嗎?

使用案例

應用實例

用途
客服中心內的語音機器人

Dialogflow 的語音機器人可動態產生語音,並非播放預先錄製的靜態語音,能帶來更優質的客戶服務體驗。以高品質的合成語音與來電者互動,個人化服務親切又有熟悉感。

Google Cloud Speech-to-Text API 流程
用途
在裝置產生語音

裝置可當做文字閱讀器使用,發出擬真語音,與人自然溝通。搭配 Speech-to-TextNatural Language,建構端對端語音介面,輕鬆又密切的互動,提升使用者體驗。

裝置和 IoT 語音轉文字的流程
用途
無障礙電子節目表

系統可輕鬆讀出電子節目表的文字,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。查看電子節目表示範

輕鬆將文字轉語音功能導入電子節目表,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。

EPG 和 Text-to-Speech API 流程

所有功能與特色

所有功能與特色

串流音訊合成

AI 代理透過串流音訊合成功能,帶來超低延遲語音,對話互動流暢而即時。

長音訊合成

使用長音訊合成功能,以非同步方式合成輸入內容,最高可達 100 萬位元組。

語音和語言選項

涵蓋 75 種語言和方言、380 多種語音,而且即將推出更多選項。

文字與 SSML 支援

使用 SSML 標記來自訂語音,例如加入停頓點、數字、日期與時間格式設定,以及其他發音指示。

音調微調

自訂所選語音的音調,最多可將預設音調升高或降低 20 個半音。

誦讀速度微調

朗讀速度可調整為比正常速度快或慢 4 倍。

音量增益控制

輸出音量最多能提高 16 db 或降低 96 db。

整合式 REST 和 gRPC API

輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置,包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。

多種音訊格式

將文字轉換為 MP3、Linear16、OGG Opus 等多種音訊格式

音訊設定檔

可針對播放語音的喇叭類型執行最佳化處理,例如耳罩式耳機或電話聽筒。

定價

定價

Text-to-Speech 的計費方式,是根據每月傳送至這項服務進行音訊合成的字元數。WaveNet 語音每月前 100 萬個字元免費;標準 (非 WaveNet) 語音則每月前 400 萬個字元免費。免費方案的額度用完後,則依據 Text-to-Speech 處理的文字量收費,計費單位為 100 萬個字元。

如果使用美元以外的貨幣付費,將以 Google Cloud SKU 頁面列出的相應貨幣價格計費。

後續行動

新客戶可獲得 $300 美元的免費抵免額,體驗 Text-to-Speech 和其他 Google Cloud 產品。

Cloud Text-to-Speech