긴 오디오 만들기
이 문서에서는 긴 오디오를 합성하는 프로세스를 안내합니다. 긴 오디오 합성은 입력 시 최대 100만 바이트를 비동기식으로 합성합니다. Text-to-Speech의 기본 개념에 대한 자세한 내용은 Text-to-Speech 기본 사항을 참조하세요.
시작하기 전에
Text-to-Speech API에 요청을 보내려면 먼저 다음 작업을 완료해야 합니다. 자세한 내용은 시작하기 전에 페이지를 참조하세요.
- GCP 프로젝트에서 Text-to-Speech를 사용 설정합니다.
- Text-to-Speech에 결제가 사용 설정되었는지 확인하기
- 출력 GCS 버킷에 다음 Identity and Access Management(IAM) 역할이 있는지 확인합니다.
- 스토리지 객체 생성자
- 스토리지 객체 뷰어
-
After installing the Google Cloud CLI, configure the gcloud CLI to use your federated identity and then initialize it by running the following command:
gcloud init
명령줄을 사용하여 텍스트에서 긴 오디오 합성
https://texttospeech.googleapis.com/v1beta1/projects/{$project_number}/locations/global:synthesizeLongAudio
엔드포인트에 대한 HTTP POST 요청을 수행하여 긴 텍스트를 오디오로 변환할 수 있습니다.
POST 명령어 본문에 다음 필드를 지정합니다.
• voice
: 합성할 음성 유형입니다.
• input.text
: 합성할 텍스트입니다.
• audioConfig
: 만들려는 오디오 유형입니다.
• output_gcs_uri
: 'gs://bucket_name/file_name.wav' 형식의 GCS 출력 파일 경로입니다.
• parent
: 'projects/{YOUR PROJECT NUMBER}/locations/{YOUR PROJECT LOCATION}' 형식의 상위 항목입니다.
입력은 최대 1MB의 문자가 포함될 수 있으며, 정확한 한도는 입력에 따라 다를 수 있습니다.
합성을 실행하는 데 사용되는 프로젝트 아래에 Google Cloud Storage 버킷을 만듭니다. 합성을 실행하는 데 사용된 서비스 계정에 출력 GCS 버킷에 대한 읽기/쓰기 액세스 권한이 있는지 확인합니다.
Text-to-Speech를 사용하여 텍스트에서 오디오를 합성하려면 명령줄에서 다음 REST 요청을 실행합니다. 이 명령어는
gcloud auth application-default print-access-token
명령어를 사용하여 요청에 사용할 승인 토큰을 검색합니다.GET 작업을 실행하는 서비스 계정에 Text-to-Speech 편집자 역할이 있는지 확인합니다.
HTTP 메서드 및 URL:
POST https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio
JSON 요청 본문:
{ "parent": "projects/12345/locations/global", "audio_config":{ "audio_encoding":"LINEAR16" }, "input":{ "text":"hello" }, "voice":{ "language_code":"en-us", "name":"en-us-Standard-A" }, "output_gcs_uri": "gs://bucket_name/file_name.wav" }
요청을 보내려면 다음 옵션 중 하나를 펼칩니다.
다음과 비슷한 JSON 응답이 표시됩니다.
{ "name": "23456", "metadata": { "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata", "progressPercentage": 0, "startTime": "2022-12-20T00:46:56.296191037Z", "lastUpdateTime": "2022-12-20T00:46:56.296191037Z" }, "done": false }
REST 명령어의 JSON 출력에서는
name
필드에 장기 작업 이름이 포함됩니다. 명령줄에서 아래 REST 요청을 실행하여 장기 실행 작업의 상태를 쿼리합니다.GET 작업을 실행하는 서비스 계정은 합성에 사용된 것과 동일한 프로젝트의 계정인지 확인합니다.
HTTP 메서드 및 URL:
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456
요청을 보내려면 다음 옵션 중 하나를 펼칩니다.
다음과 비슷한 JSON 응답이 표시됩니다.
{ "name": "projects/12345/locations/global/operations/23456", "metadata": { "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata", "progressPercentage": 100 }, "done": true }
특정 프로젝트에서 실행되는 모든 작업 목록을 쿼리하고 아래에서 REST 요청을 실행합니다.
LIST 작업을 실행하는 서비스 계정이 합성에 사용된 것과 동일한 프로젝트에 속해있는지 확인합니다.
HTTP 메서드 및 URL:
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations
요청을 보내려면 다음 옵션 중 하나를 펼칩니다.
다음과 비슷한 JSON 응답이 표시됩니다.
{ "operations": [ { "name": "12345", "done": false }, { "name": "23456", "done": false } ], "nextPageToken": "" }
장기 실행 작업이 성공적으로 완료되면
output_gcs_uri
필드의 지정된 버킷 URI에서 출력 오디오 파일을 찾습니다. 작업이 성공적으로 완료되지 않으면 GET REST 명령어를 사용해 쿼리하여 오류를 찾아 수정한 후 RPC를 다시 실행합니다.
클라이언트 라이브러리를 사용하여 텍스트에서 긴 오디오 합성
클라이언트 라이브러리 설치
Python
라이브러리를 설치하기 전에 Python 개발을 위한 환경이 준비됐는지 확인하세요.
pip install --upgrade google-cloud-texttospeech
오디오 데이터 만들기
Text-to-Speech를 사용하여 합성한 인간 음성의 긴 오디오 파일을 만들 수 있습니다. 다음 코드를 사용하여 GCS 버킷에서 긴 오디오 파일을 만듭니다.
Python
예시를 실행하기 전에 Python 개발 환경이 준비됐는지 확인합니다.
삭제
불필요한 Google Cloud Platform 요금이 부과되지 않도록 하려면 Google Cloud 콘솔에서 필요하지 않은 프로젝트를 삭제해야 합니다.
다음 단계