Text-to-Speech는 사람과 비슷한 자연스러운 품질의 오디오를 생성하여 실제 사람처럼 들리는 음성을 만듭니다. 시작하려면 합성 요청을 보낼 때 음성을 지정합니다.
Text-to-Speech는 언어, 성별, 억양에 따라 다양한 음성을 제공합니다. 일부 언어는 여러 옵션이 있습니다. 전체 목록은 지원되는 음성 페이지를 확인하세요. 음성을 선택하려면 API 요청에서 VoiceSelectionParams
필드를 사용합니다.
개요
음성 유형 | 대상 | 출시 단계 | 제어 가능성 | 스트리밍 | |
---|---|---|---|---|---|
Chirp 3: HD 음성 |
대화형 에이전트
|
미리보기 | - | 예 | |
Chirp HD 음성 |
대화형 에이전트
|
미리보기 | - | 예 | |
Studio | 스피커 2대 그룹 |
미디어: 토론 및 인터뷰
|
실험용 | - | - |
발표자 1명 인원 |
미디어: 내레이션
|
GA | SSML | - | |
Neural2 |
범용
|
GA | SSML | - | |
Standard |
비용 효율적
|
GA | SSML | - |
Chirp 3: HD 음성
Chirp 3: HD 음성은 인간의 억양 뉘앙스를 포착하는 기술을 기반으로 하여 대화를 더욱 흥미롭게 만듭니다. 이러한 음성은 다양한 언어로 8가지 고유한 스타일로 제공되며 실시간 및 표준 애플리케이션 모두에 적합합니다.
Chirp HD 음성
Chirp HD 음성은 최신 생성형 AI 모델을 기반으로 합니다. Chirp HD 음성을 사용하면 대화형 애플리케이션에 보다 몰입도 높고 공감가는 음성을 만들 수 있습니다. Chirp HD 음성은 텍스트 스트리밍을 통해 지연 시간이 짧은 실시간 커뮤니케이션을 생성하고 지원되는 음성 테이블에 나열된 언어를 지원합니다.
채팅 환경
음성: en-US-Chirp-HD-F
기타 예
가상 어시스턴트
en-US-Chirp-HD-D
고객 서비스 챗봇
en-US-Chirp-HD-F
상호작용 교육 애플리케이션
en-US-Chirp-HD-O
판매 및 피치
en-US-Chirp-HD-D
스토리타임
en-US-Chirp-HD-F
스튜디오 멀티스피커 음성
Chirp HD 음성의 동일한 기술을 기반으로 하는 새로운 멀티스피커 스튜디오 음성으로 토론 및 인터뷰를 제작하세요.
예: 스튜디오 멀티스피커 음성
Studio 음성
스튜디오 음성은 뉴스 읽기 및 방송 콘텐츠를 위해 설계되었습니다.
예: en-US-Studio-O
음성으로 위대한 개츠비를 읽는 경우
Neural2 음성
Text-to-Speech API는 Neural2라는 음성 등급을 제공합니다. Neural2 음성은 Custom Voice를 만드는 데 사용된 것과 동일한 기술을 기반으로 합니다. Neural2에서는 누구나 자신의 커스텀 음성을 학습시키지 않고도 Custom Voice 기술을 사용할 수 있습니다. 전역 및 단일 리전 엔드포인트에서 사용할 수 있습니다.
예: Neural2 음성
표준 음성
Text-to-Speech에서 제공되는 음성은 음성의 머신 모델을 만드는 데 사용되는 합성 음성 기술에 따라 다릅니다. 일반적인 음성 기술인 파라메트릭 텍스트 음성 변환은 일반적으로 vocoder라고 하는 신호 처리 알고리즘을 통해 출력을 전달하여 오디오 데이터를 생성합니다. Text-to-Speech에서 사용할 수 있는 표준 음성의 대부분은 이러한 종류의 기술을 사용합니다.
다음 단계
synthesize
요청을 보내는 방법에 관한 안내는 빠른 시작을 참고하세요.