跳至
Text-to-Speech

Text-to-Speech AI

這個 API 採用先進 Google AI 技術,可將文字轉換為自然流暢的語音。

新客戶可獲得高達 $300 美元的免付費抵免額,試用 Text-to-Speech 和其他 Google Cloud 產品。

  • 運用自然 AI 語音,智慧發言、流暢回覆

  • 整合文字轉語音功能,為應用程式打造語音介面

  • 依據使用者偏好的聲音和語言,自訂風格獨具的訊息及音訊

優點

高保真語音

部署 Google 劃時代的創新技術,生成語調宛如真人的語音。此 API 融入 DeepMind 的語音合成專業知識,帶給您擬真的聲音。

多元豐富的聲音選項

提供逾 380 種聲音選項,支援超過 75 種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。您可挑選最適合使用者和應用程式的語音。

與眾不同的聲音

創造具備品牌特色的聲音,在所有顧客接觸點呈現獨特風格,不用與其他機構使用相同的語音。

示範

實際應用 Text-to-Speech

自由輸入內容、選取所需語言,然後點按「Speak It」即可聆聽。

主要功能與特色

主要功能與特色

Gemini-TTS

Gemini-TTS 能根據文字合成單人或多人說話的語音,同時保留情境脈絡,不管是簡短片段還是長篇內容都能處理。使用簡單的自然語言提示詞 (支援超過 75 種語言/地區組合),就能精準指定風格、口音、語速、語氣和情緒表達方式。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

Chirp 3:HD 語音

運用以 AudioML 為基礎的最新自然對話語音,打造互動活躍的代理。這類語音具備絕佳音質、低延遲串流,說話方式自然,融合人類口語停頓、情感表現和精準語調。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

Chirp 3:即時 Custom Voice 功能

只要 10 秒的錄音檔,就能建立個人化語音模型,適合用於電玩遊戲、有聲書、Podcast 等,支援超過 30 種語言/地區組合。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

支援提示詞、文字和 SSML

使用簡單的純文字指令碼、SSML 標記,或甚至強大的自然語言提示詞,調整數字和時間格式、呈現方式、發音和情緒。實際支援的功能視模型而定。前往 Media Studio 或參閱說明文件,即可瞭解詳情。

說明文件

說明文件

Quickstart

Gemini-TTS

瞭解如何使用 Gemini-TTS 精準控制語音合成,透過自然語言提示詞指定風格、語氣、語速和情緒表達方式。

Quickstart

Chirp 3:HD 語音簡介

瞭解如何透過「Chirp 3:HD 語音」合成能引起情感共鳴的逼真聲音,並運用進階控制項,依編寫指令碼的最佳做法微調音訊。

Quickstart

Chirp 3:即時 Custom Voice 簡介

只要短短 10 秒的錄音檔,就能為貴機構打造獨特的個人化語音模型,快速生成個人化語音。

Tutorial

使用 SSML 朗讀地址

瞭解如何使用語音合成標記語言 (SSML) 朗讀地址文字檔案。

Google Cloud Basics

Text-to-Speech 基本概念

介紹 Text-to-Speech API 的基本使用概念。

Google Cloud Basics

支援的聲音和語言

瀏覽這項產品的指南和資源。

找不到所需資訊嗎?

使用案例

應用實例

用途
客服中心的語音機器人

Customer Experience Agent Studio 的語音機器人可動態生成語音,而非播放預錄的靜態語音,能提供更優質的客戶服務語音體驗。以高品質的合成語音與來電者互動,個人化服務親切又有熟悉感。

Google Cloud Speech-to-Text API 流程
用途
裝置語音生成

將裝置當做文字閱讀器使用,發出擬真語音,自然地與使用者溝通。搭配 Speech-to-TextNatural Language,建構端對端語音介面,以輕鬆、吸引人的方式互動,提升使用者體驗。

裝置和 IoT 語音轉文字的流程
用途
無障礙電子節目表

系統可輕鬆讀出電子節目表的文字,帶來更優質的使用者體驗,讓您的服務和應用程式滿足無障礙需求。試試電子節目表示範

輕鬆將文字轉語音功能導入電子節目表,帶來更優質的使用者體驗,打造無障礙的服務和應用程式。

EPG 和 Text-to-Speech API 流程

所有功能與特色

所有功能與特色

串流音訊合成

運用串流音訊合成功能,為 AI 代理帶來超低延遲語音,實現流暢即時的對話互動。

長音訊合成

使用長音訊合成功能,以非同步方式合成輸入內容,最高可達 100 萬位元組。

語音和語言選項

提供超過 75 種語言和方言、逾 380 種聲音,而且即將推出更多選項。

文字與 SSML 支援

使用 SSML 標記來自訂語音,加入停頓點、數字、日期與時間格式設定,以及其他發音指示。

音調微調

自訂所選聲音的音調,最多可升高或降低 20 個半音。

誦讀速度微調

朗讀速度可調整為比正常快或慢 4 倍。

音量增益控制

輸出音量最多能提高 16 db 或降低 96 db。

整合式 REST 和 gRPC API

輕鬆整合可傳送 REST 或 gRPC 要求的任何應用程式或裝置,包括手機、電腦、平板電腦和 IoT 裝置 (例如汽車、電視與喇叭)。

多種音訊格式

將文字轉換為 MP3、Linear16、OGG Opus 等多種音訊格式

音訊設定檔

可針對播放語音的喇叭類型執行最佳化處理,例如耳罩式耳機或電話聽筒。

定價

定價

Text-to-Speech 的計費方式,是根據每月傳送至這項服務進行音訊合成的字元數計算。WaveNet 語音每月前 100 萬個字元免付費;標準 (非 WaveNet) 語音則每月前 400 萬個字元免付費。免費方案額度用完後,則依據 Text-to-Speech 處理的文字量收費,計費單位為 100 萬個字元。

如果使用美元以外的貨幣付費,則會以 Google Cloud SKU 頁面列出的對應價格計費。

後續行動

新客戶可獲得價值 $300 美元的免付費抵免額,體驗 Text-to-Speech 和其他 Google Cloud 產品。

Cloud Text-to-Speech
Google Cloud