Gemini Enterprise Agent Platform에서 추론, 코딩, 멀티모달을 이해하는 데 가장 적합한 모델인 Gemini 3 사용해 보기

Text-to-Speech

Text-to-Speech AI

최고의 Google AI 기술을 기반으로 한 API를 사용하여 텍스트를 자연스러운 음성으로 변환합니다.

신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Text-to-Speech 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다.

자연스러운 AI 음성으로 사용자에게 생동감 있는 지능형 대답 제공
통합된 텍스트 음성 변환으로 앱용 음성 인터페이스 빌드
사용자의 음성 및 언어 환경설정에 따라 커뮤니케이션과 오디오를 맞춤설정

Text-to-Speech API를 사용하여 합성 음성을 만드는 방법 알아보기

사용자 주도형 실습 시작하기

이점

고품질 음성

Google의 획기적인 기술을 배포하여 인간과 같은 억양을 가진 음성을 생성해 보세요. DeepMind의 음성 합성 전문 기술을 기반으로 빌드된 API가 인간과 흡사한 수준의 음성을 제공합니다.

가장 광범위한 음성 선택 옵션

러시아어, 스페인어, 아랍어, 중국어(북경어), 힌디어 등 75개 이상의 언어 및 방언을 지원하는 380여 개의 음성 중에서 선택할 수 있습니다. 사용자와 애플리케이션에 가장 적합한 음성을 선택해 보세요.

고유한 음성

다른 조직과 공유해서 사용하는 흔한 음성 대신 자사 브랜드를 상징하는 특별한 음성을 제작해 모든 고객 터치 포인트에서 활용할 수 있도록 지원합니다.

데모

Text-to-Speech 사용해 보기

원하는 내용을 입력하고 언어를 선택한 다음 '음성 변환'을 클릭하세요.

주요 특징

주요 기능

Gemini-TTS

짧은 스니펫부터 완전한 길이의 내러티브까지 단일 또는 다중 화자 음성을 맥락을 유지하면서 합성합니다. 75개 이상의 언어로 된 간단한 자연어 프롬프트를 통해 스타일, 억양, 속도, 어조, 감정 표현을 정확하게 지시할 수 있습니다. 자세한 내용은 Media Studio를 방문하거나 문서를 확인하세요.

Chirp 3: HD 음성

AudioLM을 기반으로 한 즉흥적인 최신 대화형 음성 기능을 사용하여 몰입도 높은 에이전트를 빌드하세요. 이러한 음성 기능은 인간의 말더듬, 다양한 감정 표현과 정확한 억양을 통합하여 고품질 오디오, 지연 시간이 짧은 스트리밍, 자연스러운 음성을 제공합니다. 자세한 내용은 Media Studio를 방문하거나 문서를 확인하세요.

Chirp 3: 즉석 커스텀 음성

10초 분량의 오디오 입력만으로 커스텀 음성 모델을 만들 수 있습니다. 비디오 게임, 오디오북, 팟캐스트 등에 적합합니다. 30개 이상의 언어로 사용할 수 있습니다. 자세한 내용은 Media Studio를 방문하거나 문서를 확인하세요.

프롬프트, 텍스트, SSML 지원

지원되는 모델에 따라 간단한 일반 텍스트 스크립팅, SSML 태그 또는 강력한 자연어 프롬프트를 사용하여 숫자 및 시간 형식, 전달 방식, 발음과 감정을 제어할 수 있습니다. 자세한 내용은 Media Studio를 방문하거나 문서를 확인하세요.

새로운 소식

Google Cloud 뉴스레터를 신청하여 제품 변경사항, 행사 정보, 특별 이벤트 등의 소식을 받아보세요.

Blog post

이제 Google Cloud Text-to-Speech API에서 커스텀 음성 지원블로그 읽기

스마트폰을 들고 Text-to-Speech로 만든 오디오북을 보여주는 사람

Video

머신러닝을 사용하여 PDF를 오디오북으로 변환하는 방법동영상 보기

Contact Center AI를 사용하는 AI 기반 대화를 시연하는 스케치

Blog post

고객 경험을 개선하는 대화형 AI블로그 읽기

Video

Speech-to-Text와 Text-to-Speech를 사용하여 통화 접근성 해결동영상 보기

전 세계 국기 약 25개 위에 적힌 Cloud Text-to-Speech 언어 및 음성 설명

Blog post

Text-to-Speech에서 새롭게 지원하는 음성 및 언어블로그 읽기

문서

Quickstart

Gemini-TTS

Gemini-TTS로 음성 합성을 정밀하게 제어하는 방법을 알아보세요. 자연어 프롬프트를 사용하여 스타일, 어조, 속도, 감정 표현을 지시할 수 있습니다.

Quickstart

Chirp 3: HD 음성 개요

Chirp 3: HD 음성을 사용하여 현실감 있고 감정적으로 공감할 수 있는 음성을 합성하고, 고급 제어 기능과 스크립팅 권장사항으로 오디오를 세부 조정하는 방법을 알아보세요.

Quickstart

Chirp 3: 즉석 커스텀 음성 개요

단 10초의 오디오 녹음으로 조직에 맞는 고유한 커스텀 음성 모델을 만들어 보세요. 개인 음성을 빠르게 생성할 수 있습니다.

Tutorial

SSML로 주소 말하기

음성 합성 마크업 언어(SSML)를 사용하여 주소 텍스트 파일을 말하는 방법을 알아보세요.

Google Cloud Basics

Text-to-Speech 기본사항

Text-to-Speech API 사용에 관한 기본 개념을 설명하는 가이드입니다.

Google Cloud Basics

지원되는 음성 및 언어

이 제품의 가이드 및 리소스를 찾아봅니다.

원하는 내용을 찾을 수 없으신가요?

출시 노트

Text-to-Speech의 최신 출시 소식 읽기

사용 사례

고객센터의 음성 봇

사전 녹음된 정적인 오디오를 재생하는 대신 Customer Experience Agent Studio의 음성 봇을 통해 음성을 동적으로 생성하여 고객 서비스에 더 나은 음성 상호작용 경험을 제공합니다. 고품질 합성 음성을 통해 발신자에게 친밀감과 맞춤화된 경험을 제공합니다.

사용 사례

기기에서 음성 생성

기기가 텍스트를 읽을 때 인간과 비슷한 음성을 사용하도록 지원하여 사용자와 자연스러운 커뮤니케이션을 할 수 있습니다. Speech-to-Text와 자연어를 통해 엔드 투 엔드 음성 사용자 인터페이스를 빌드하여 참여를 유도하는 쉬운 상호작용으로 사용자 경험을 개선합니다.

사용 사례

접근성을 갖춘 EPG(전자 프로그램 가이드)

손쉽게 EPG에서 텍스트를 소리 내 읽을 수 있도록 하여 고객에게 더 나은 사용자 경험을 제공하고 서비스 및 애플리케이션의 접근성 요구사항을 충족할 수 있습니다. EPG 데모 사용해 보기

EPG에서 텍스트 음성 변환 기능을 손쉽게 구현하여 고객에게 더 나은 사용자 경험을 제공하고 서비스 및 애플리케이션의 접근성 요구사항을 충족할 수 있습니다.

모든 특징

모든 기능

스트리밍 오디오 합성	스트리밍 오디오 합성을 통해 지연 시간이 매우 짧은 음성으로 AI 에이전트를 강화하여 원활한 실시간 대화를 구현하세요.
긴 오디오 합성	긴 오디오 합성으로 최대 100만 바이트의 입력을 비동기식으로 합성합니다.
음성 및 언어 선택	75개 이상의 언어 및 방언을 지원하는 380여 개의 광범위한 음성 중에서 선택할 수 있으며 앞으로 더 많은 음성이 추가될 예정입니다.
텍스트 및 SSML 지원	끊어 읽을 지점, 숫자, 날짜 및 시간 형식, 기타 발음 요청 사항을 추가할 수 있는 SSML 태그로 음성을 맞춤설정할 수 있습니다.
높낮이 조정	선택한 음성의 높낮이를 기본 출력보다 최대 20반음까지 높거나 낮게 맞춤설정할 수 있습니다.
말하기 속도 조정	말하기 속도를 일반 속도보다 4배 빠르거나 느리게 조정할 수 있습니다.
볼륨 제어	출력 볼륨을 최대 16dB까지 높이거나 -96dB까지 줄일 수 있습니다.
통합된 REST API 및 gRPC API	휴대전화, PC, 태블릿, IoT 기기(예: 자동차, TV, 스피커)를 포함하여 REST 또는 gRPC 요청을 전송할 수 있는 모든 애플리케이션 또는 기기와 손쉽게 통합할 수 있습니다.
오디오 형식 유연성	텍스트를 MP3, Linear16, OGG Opus 및 기타 다양한 오디오 형식으로 변환할 수 있습니다.
오디오 프로필	헤드폰 또는 전화 회선과 같이 음성 재생에 사용할 스피커 유형에 맞게 최적화할 수 있습니다.

가격 책정

Text-to-Speech 가격은 서비스로 전송되어 오디오로 합성되는 문자 수(영문 기준)를 기준으로 매월 책정됩니다. 매월 WaveNet 음성의 100만 자가 무료로 제공됩니다. 표준(WaveNet 이외) 음성의 경우 매월 400만 자가 무료로 제공됩니다. Text-to-Speech는 무료 등급 할당량에 도달한 후부터 처리되는 텍스트에 대해 100만 자 단위로 가격이 책정됩니다.

USD 외의 통화로 지불하는 경우 Google Cloud SKU에 해당 통화로 표기된 가격이 적용됩니다.

다음 단계 수행

신규 고객에게는 Text-to-Speech 및 기타 Google Cloud 제품에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

시작하는 데 도움이 필요하신가요?
영업팀에 문의
신뢰할 수 있는 파트너 지원
파트너 찾기
계속 탐색
모든 제품 보기

Text-to-Speech AI

고품질 음성

가장 광범위한 음성 선택 옵션

고유한 음성

Text-to-Speech 사용해 보기

주요 기능

Gemini-TTS

Chirp 3: HD 음성

Chirp 3: 즉석 커스텀 음성

프롬프트, 텍스트, SSML 지원

새로운 소식

문서

Gemini-TTS

Chirp 3: HD 음성 개요

Chirp 3: 즉석 커스텀 음성 개요

SSML로 주소 말하기

Text-to-Speech 기본사항

지원되는 음성 및 언어

원하는 내용을 찾을 수 없으신가요?

문서 더보기

사용 사례

고객센터의 음성 봇

기기에서 음성 생성

접근성을 갖춘 EPG(전자 프로그램 가이드)

모든 기능

가격 책정

다음 단계 수행

시작하는 데 도움이 필요하신가요?

신뢰할 수 있는 파트너 지원

계속 탐색