바로 이동
Text-to-Speech

Text-to-Speech

Google 최고의 AI 기술을 기반으로 한 API를 사용하여 텍스트를 자연스러운 음성으로 변환합니다.

신규 고객에게는 최대 $300의 무료 크레딧이 제공되어 Text-to-Speech 및 기타 Google Cloud 제품을 사용해 볼 수 있습니다.

  • 생동감 있는 지능형 응답으로 고객 상호작용 개선

  • 기기 및 애플리케이션의 음성 사용자 인터페이스로 사용자 참여 유도

  • 사용자가 원하는 음성 및 언어를 사용하여 커뮤니케이션 맞춤설정

이점

고품질 음성

Google의 획기적인 기술을 배포하여 인간과 같은 억양을 가진 음성을 생성해 보세요. DeepMind의 음성 합성 전문 기술을 기반으로 제작되어 API가 인간과 흡사한 수준의 음성을 제공합니다.

가장 광범위한 음성 선택 옵션

러시아어, 스페인어, 아랍어, 중국어(베이징관화), 힌디어 등 50개 이상의 언어 및 방언을 지원하는 380여 개의 음성 중에서 선택할 수 있습니다. 사용자와 애플리케이션에 가장 적합한 음성을 선택해 보세요.

단 하나의 음성

다른 조직과 공유해서 사용하는 흔한 음성 대신 자사 브랜드를 상징하는 특별한 음성을 제작해 모든 고객 터치 포인트에서 활용할 수 있도록 지원합니다.

데모

Text-to-Speech 사용해 보기

원하는 내용을 입력하고 언어를 선택한 다음 '음성 변환(Speak It)'을 클릭하여 들어보세요.

주요 특징

주요 특징

Journey 음성(프리뷰)

AudioLM을 기반으로 한 즉흥적인 최신 대화형 음성 기능을 사용하여 몰입도 높은 에이전트를 빌드하세요. 이러한 음성 기능은 인간의 눌언과 정확한 억양을 통합하여 고품질 오디오, 지연 시간이 짧은 스트리밍, 자연스러운 음성을 제공합니다.

Studio 음성

스튜디오급 환경에서 전문가 수준의 내레이션을 넣어 녹음한 콘텐츠로 듣는 이들의 마음을 사로잡으세요. 헤드폰을 착용하면 몰입감이 더욱 커집니다.

이제 여러 화자와의 대화를 생성하여 가장 상호작용이 활발한 시나리오를 만들 수 있습니다.

Neural2 음성

커스텀 음성 지원에 대한 최신 연구를 바탕으로 바로 사용 가능한 음성을 활용해 음성 경험을 국제화할 수 있습니다.

커스텀 음성

자체 오디오 녹음 파일로 커스텀 음성 모델을 학습시켜 조직에 맞는 특별하면서 보다 자연스러운 음성을 만드세요. 조직에 맞는 음성 프로필을 정의하고 선택한 후, 필요한 음성이 바뀔 때 새 구문을 녹음할 필요 없이 빠르게 조정할 수 있습니다.

텍스트 및 SSML 지원

끊어 읽을 지점, 숫자, 날짜 및 시간 형식, 기타 발음 지침을 추가할 수 있는 SSML 태그로 음성을 맞춤설정할 수 있습니다.

모든 특징 보기

문서

문서

Google Cloud Basics

Text-to-Speech 기본사항

Text-to-Speech API 사용에 관한 기본 개념을 설명하는 가이드입니다.
Quickstart

빠른 시작: 명령줄 사용

Google Cloud 프로젝트 및 인증을 설정하고 Text-to-Speech에 요청을 전송하여 텍스트에서 오디오를 만듭니다.
Google Cloud Basics

지원되는 음성 및 언어

이 제품의 가이드 및 리소스를 찾아봅니다.
Google Cloud Basics

커스텀 음성(베타) 개요

자체 스튜디오 품질 오디오 녹음 파일을 사용하여 커스텀 음성으로 특별하면서 보다 자연스러운 음성을 만드는 방법을 알아보세요.
Tutorial

WaveNet 및 기타 합성 음성

프리미엄 WaveNet 음성을 포함하여 Text-to-Speech에서 사용할 수 있는 다양한 합성 음성에 대해 알아봅니다.
Tutorial

SSML로 주소 말하기

이 튜토리얼에서는 음성 합성 마크업 언어(SSML)를 사용하여 주소 텍스트 파일을 말하는 방법을 보여줍니다.

원하는 내용을 찾을 수 없으신가요?

사용 사례

사용 사례

사용 사례
고객 센터의 음성 봇

사전 녹음된 정적인 오디오를 재생하는 대신 Dialogflow의 음성 봇을 통해 음성을 동적으로 생성하여 고객 서비스에 더 나은 음성 경험을 제공합니다. 고품질 합성 음성을 통해 발신자에게 친밀감과 맞춤화된 경험을 제공합니다.

고객 센터의 음성 봇 참조 아키텍처
사용 사례
기기에서 음성 생성

기기가 텍스트를 읽을 때 인간과 비슷한 음성을 사용하도록 지원하여 사용자와 자연스러운 커뮤니케이션을 할 수 있습니다. Speech-to-TextNatural Language를 통해 엔드 투 엔드 음성 사용자 인터페이스를 빌드하여 참여를 유도하는 쉬운 상호작용으로 사용자 경험을 개선합니다.

기기에서 음성 생성 참조 아키텍처
사용 사례
접근성을 위한 EPG(전자 프로그램 가이드)

손쉽게 EPG에서 텍스트를 소리 내 읽을 수 있도록 하여 고객에게 더 나은 사용자 경험을 제공하고 서비스와 애플리케이션의 접근성 요구사항을 충족할 수 있습니다. EPG 데모를 사용해 보세요.

EPG에서 텍스트 음성 변환 기능을 손쉽게 구현하여 고객에게 더 나은 사용자 경험을 제공하고 서비스와 애플리케이션의 접근성 요구사항을 충족할 수 있습니다.

TTS API로 접근성이 우수한 EPG를 만드는 방법을 보여주는 참조 아키텍처

모든 특징

모든 기능

커스텀 음성
자체 오디오 녹음 파일로 커스텀 음성 합성 모델을 학습시켜 조직에 맞는 특별하면서 보다 자연스러운 음성을 만드세요. 조직에 맞는 음성 프로필을 정의하고 선택한 후, 필요한 음성이 바뀔 때 새 구문을 녹음할 필요 없이 빠르게 조정할 수 있습니다. 자세히 알아보기
긴 오디오 합성
긴 오디오 합성으로 최대 100만 바이트의 입력을 비동기식으로 합성합니다.
음성 및 언어 선택
40개 이상의 언어 및 방언을 지원하는 220여 개의 광범위한 음성 중에서 선택할 수 있으며 앞으로 더 많은 음성이 추가될 예정입니다.
WaveNet 음성
DeepMind의 혁신적인 연구를 기반으로 빌드된 90여 개의 WaveNet 음성을 활용하여 사람 목소리와의 격차를 대폭 축소하는 음성을 생성합니다.
텍스트 및 SSML 지원
끊어 읽을 지점, 숫자, 날짜, 시간 형식, 기타 발음 지침을 추가할 수 있는 SSML 태그로 음성을 맞춤설정할 수 있습니다.
높낮이 조정
선택한 음성의 높낮이를 기본 출력보다 최대 20반음까지 높거나 낮게 맞춤설정할 수 있습니다.
말하기 속도 조정
말하기 속도를 일반 속도보다 4배 빠르거나 느리게 맞춤설정할 수 있습니다.
볼륨 제어
출력 볼륨을 최대 16dB까지 높이거나 -96dB까지 줄일 수 있습니다.
통합된 REST 및 gRPC API

휴대전화, PC, 태블릿, IoT 기기(예: 자동차, TV, 스피커)를 포함하여 REST 또는 gRPC 요청을 전송할 수 있는 모든 애플리케이션 또는 기기와 손쉽게 통합할 수 있습니다.

오디오 형식 유연성
텍스트를 MP3, Linear16, OGG Opus 및 기타 다양한 오디오 형식으로 변환할 수 있습니다.
오디오 프로필
헤드폰 또는 전화 회선과 같이 음성 재생에 사용할 스피커 유형에 맞게 최적화할 수 있습니다.

가격 책정

가격 책정

Text-to-Speech 가격은 서비스로 전송되어 오디오로 합성되는 문자 수(영문 기준)를 기준으로 매월 책정됩니다. 매월 WaveNet 음성의 100만 자가 무료로 제공됩니다. 표준(WaveNet 이외) 음성의 경우 매월 400만 자가 무료로 제공됩니다. Text-to-Speech는 무료 등급 할당량에 도달한 후부터 처리되는 텍스트에 대해 100만 자 단위로 가격이 책정됩니다.

USD 외의 통화로 지불하는 경우 Google Cloud SKU에 해당 통화로 표기된 가격이 적용됩니다.

다음 단계 수행

신규 고객에게는 Text-to-Speech 및 기타 Google Cloud 제품에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud