이 페이지는 Cloud Translation API를 통해 번역되었습니다.

지원되는 음성

Text-to-Speech는 사람과 비슷한 자연스러운 품질의 오디오를 생성하여 실제 사람처럼 들리는 음성을 만듭니다. 시작하려면 합성 요청을 보낼 때 음성을 지정합니다.

Text-to-Speech는 언어, 성별, 억양에 따라 다양한 음성을 제공합니다. 일부 언어는 여러 옵션이 있습니다. 전체 목록은 지원되는 음성 페이지를 확인하세요. 음성을 선택하려면 API 요청에서 VoiceSelectionParams 필드를 사용합니다.

개요

음성 유형		대상	출시 단계	제어 가능성	스트리밍
Chirp 3: HD 음성		대화형 에이전트	미리보기	-	예
Chirp HD 음성		대화형 에이전트	미리보기	-	예
Studio	스피커 2대 그룹	미디어: 토론 및 인터뷰	실험용	-	-
Studio	발표자 1명 인원	미디어: 내레이션	GA	SSML	-
Neural2		범용	GA	SSML	-
Standard		비용 효율적	GA	SSML	-

가격 세부정보

Chirp 3: HD 음성

Chirp 3: HD 음성은 인간의 억양 뉘앙스를 포착하는 기술을 기반으로 하여 대화를 더욱 흥미롭게 만듭니다. 이러한 음성은 다양한 언어로 8가지 고유한 스타일로 제공되며 실시간 및 표준 애플리케이션 모두에 적합합니다.

Chirp HD 음성

Chirp HD 음성은 최신 생성형 AI 모델을 기반으로 합니다. Chirp HD 음성을 사용하면 대화형 애플리케이션에 보다 몰입도 높고 공감가는 음성을 만들 수 있습니다. Chirp HD 음성은 텍스트 스트리밍을 통해 지연 시간이 짧은 실시간 커뮤니케이션을 생성하고 지원되는 음성 테이블에 나열된 언어를 지원합니다.

채팅 환경

음성: en-US-Chirp-HD-F

기타 예

가상 어시스턴트

음성: en-US-Chirp-HD-D

고객 서비스 챗봇

음성: en-US-Chirp-HD-F

상호작용 교육 애플리케이션

음성: en-US-Chirp-HD-O

판매 및 피치

음성: en-US-Chirp-HD-D

스토리타임

음성: en-US-Chirp-HD-F

스튜디오 멀티스피커 음성

Chirp HD 음성의 동일한 기술을 기반으로 하는 새로운 멀티스피커 스튜디오 음성으로 토론 및 인터뷰를 제작하세요.

예: 스튜디오 멀티스피커 음성

Studio 음성

스튜디오 음성은 뉴스 읽기 및 방송 콘텐츠를 위해 설계되었습니다.

예: en-US-Studio-O 음성으로 위대한 개츠비를 읽는 경우

Neural2 음성

Text-to-Speech API는 Neural2라는 음성 등급을 제공합니다. Neural2 음성은 Custom Voice를 만드는 데 사용된 것과 동일한 기술을 기반으로 합니다. Neural2에서는 누구나 자신의 커스텀 음성을 학습시키지 않고도 Custom Voice 기술을 사용할 수 있습니다. 전역 및 단일 리전 엔드포인트에서 사용할 수 있습니다.

예: Neural2 음성

표준 음성

Text-to-Speech에서 제공되는 음성은 음성의 머신 모델을 만드는 데 사용되는 합성 음성 기술에 따라 다릅니다. 일반적인 음성 기술인 파라메트릭 텍스트 음성 변환은 일반적으로 vocoder라고 하는 신호 처리 알고리즘을 통해 출력을 전달하여 오디오 데이터를 생성합니다. Text-to-Speech에서 사용할 수 있는 표준 음성의 대부분은 이러한 종류의 기술을 사용합니다.

다음 단계

synthesize 요청을 보내는 방법에 관한 안내는 빠른 시작을 참고하세요.

지원되는 음성 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

개요

Chirp 3: HD 음성

Chirp HD 음성

채팅 환경

기타 예

가상 어시스턴트

고객 서비스 챗봇

상호작용 교육 애플리케이션

판매 및 피치

스토리타임

스튜디오 멀티스피커 음성

Studio 음성

Neural2 음성

표준 음성

다음 단계

지원되는 음성