歡迎在 Gemini Enterprise Agent Platform 試用 Gemini 3，這是 Google 最出色的模型，擅長推論、程式設計和多模態理解

Text-to-Speech

Text-to-Speech AI

這個 API 採用先進 Google AI 技術，可將文字轉換為自然流暢的語音。

新客戶可獲得高達 $300 美元的免付費抵免額，試用 Text-to-Speech 和其他 Google Cloud 產品。

運用自然 AI 語音，智慧發言、流暢回覆
整合文字轉語音功能，為應用程式打造語音介面
依據使用者偏好的聲音和語言，自訂風格獨具的訊息及音訊

瞭解如何使用 Text-to-Speech API 製作合成語音

開始自學實驗室

優點

高保真語音

部署 Google 劃時代的創新技術，生成語調宛如真人的語音。此 API 融入 DeepMind 的語音合成專業知識，帶給您擬真的聲音。

多元豐富的聲音選項

提供逾 380 種聲音選項，支援超過 75 種語言和方言，包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可挑選最適合使用者和應用程式的語音。

與眾不同的聲音

創造具備品牌特色的聲音，在所有顧客接觸點呈現獨特風格，不用與其他機構使用相同的語音。

示範

實際應用 Text-to-Speech

自由輸入內容、選取所需語言，然後點按「Speak It」即可聆聽。

主要功能與特色

Gemini-TTS

Gemini-TTS 能根據文字合成單人或多人說話的語音，同時保留情境脈絡，不管是簡短片段還是長篇內容都能處理。使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合)，就能精準指定風格、口音、語速、語氣和情緒表達方式。前往 Media Studio 或參閱說明文件，即可瞭解詳情。

Chirp 3：HD 語音

運用以 AudioML 為基礎的最新自然對話語音，打造互動活躍的代理。這類語音具備絕佳音質、低延遲串流，說話方式自然，融合人類口語停頓、情感表現和精準語調。前往 Media Studio 或參閱說明文件，即可瞭解詳情。

Chirp 3：即時 Custom Voice 功能

只要 10 秒的錄音檔，就能建立個人化語音模型，適合用於電玩遊戲、有聲書、Podcast 等，支援超過 30 種語言/地區組合。前往 Media Studio 或參閱說明文件，即可瞭解詳情。

支援提示詞、文字和 SSML

使用簡單的純文字指令碼、SSML 標記，或甚至強大的自然語言提示詞，調整數字和時間格式、呈現方式、發音和情緒。實際支援的功能視模型而定。前往 Media Studio 或參閱說明文件，即可瞭解詳情。

Gemini-TTS

瞭解如何使用 Gemini-TTS 精準控制語音合成，透過自然語言提示詞指定風格、語氣、語速和情緒表達方式。

Quickstart

Chirp 3：HD 語音簡介

瞭解如何透過「Chirp 3：HD 語音」合成能引起情感共鳴的逼真聲音，並運用進階控制項，依編寫指令碼的最佳做法微調音訊。

Quickstart

Chirp 3：即時 Custom Voice 簡介

只要短短 10 秒的錄音檔，就能為貴機構打造獨特的個人化語音模型，快速生成個人化語音。

Tutorial

使用 SSML 朗讀地址

瞭解如何使用語音合成標記語言 (SSML) 朗讀地址文字檔案。

Google Cloud Basics

Text-to-Speech 基本概念

介紹 Text-to-Speech API 的基本使用概念。

Google Cloud Basics

支援的聲音和語言

瀏覽這項產品的指南和資源。

找不到所需資訊嗎？

版本資訊

瞭解 Text-to-Speech 的最新版本資訊

使用案例

應用實例

用途

客服中心的語音機器人

Customer Experience Agent Studio 的語音機器人可動態生成語音，而非播放預錄的靜態語音，能提供更優質的客戶服務語音體驗。以高品質的合成語音與來電者互動，個人化服務親切又有熟悉感。

用途

裝置語音生成

將裝置當做文字閱讀器使用，發出擬真語音，自然地與使用者溝通。搭配 Speech-to-Text 和 Natural Language，建構端對端語音介面，以輕鬆、吸引人的方式互動，提升使用者體驗。

用途

無障礙電子節目表

系統可輕鬆讀出電子節目表的文字，帶來更優質的使用者體驗，讓您的服務和應用程式滿足無障礙需求。試試電子節目表示範。

輕鬆將文字轉語音功能導入電子節目表，帶來更優質的使用者體驗，打造無障礙的服務和應用程式。

所有功能與特色

串流音訊合成	運用串流音訊合成功能，為 AI 代理帶來超低延遲語音，實現流暢即時的對話互動。
長音訊合成	使用長音訊合成功能，以非同步方式合成輸入內容，最高可達 100 萬位元組。
語音和語言選項	提供超過 75 種語言和方言、逾 380 種聲音，而且即將推出更多選項。
文字與 SSML 支援	使用 SSML 標記來自訂語音，加入停頓點、數字、日期與時間格式設定，以及其他發音指示。
音調微調	自訂所選聲音的音調，最多可升高或降低 20 個半音。
誦讀速度微調	朗讀速度可調整為比正常快或慢 4 倍。
音量增益控制	輸出音量最多能提高 16 db 或降低 96 db。
整合式 REST 和 gRPC API	輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置，包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。
多種音訊格式	將文字轉換為 MP3、Linear16、OGG Opus 等多種音訊格式。
音訊設定檔	可針對播放語音的喇叭類型執行最佳化處理，例如耳罩式耳機或電話聽筒。

定價

Text-to-Speech 的計費方式，是根據每月傳送至這項服務進行音訊合成的字元數計算。WaveNet 語音每月前 100 萬個字元免付費；標準 (非 WaveNet) 語音則每月前 400 萬個字元免付費。免費方案額度用完後，則依據 Text-to-Speech 處理的文字量收費，計費單位為 100 萬個字元。

如果使用美元以外的貨幣付費，則會以 Google Cloud SKU 頁面列出的對應價格計費。

後續行動

新客戶可獲得價值 $300 美元的免付費抵免額，體驗 Text-to-Speech 和其他 Google Cloud 產品。

需要入門協助嗎？
聯絡業務人員
與值得信賴的夥伴合作
尋找合作夥伴
繼續瀏覽
查看所有產品

Text-to-Speech AI

高保真語音

多元豐富的聲音選項

與眾不同的聲音

實際應用 Text-to-Speech

主要功能與特色

Gemini-TTS

Chirp 3：HD 語音

Chirp 3：即時 Custom Voice 功能

支援提示詞、文字和 SSML

最新資訊

說明文件

Gemini-TTS

Chirp 3：HD 語音簡介

Chirp 3：即時 Custom Voice 簡介

使用 SSML 朗讀地址

Text-to-Speech 基本概念

支援的聲音和語言

找不到所需資訊嗎？

查看更多文件

應用實例

客服中心的語音機器人

裝置語音生成

無障礙電子節目表

所有功能與特色

定價

後續行動

需要入門協助嗎？

與值得信賴的夥伴合作

繼續瀏覽