이 페이지에서는 Text-to-Speech로 생성된 여러 화자를 이용해서 대화를 만드는 방법을 설명합니다.
여러 화자가 포함된 오디오를 생성하여 대화를 만들 수 있습니다. 이 기능은 인터뷰, 대화형 스토리텔링, 비디오 게임, e-러닝 플랫폼, 접근성 솔루션에 유용할 수 있습니다.
여러 화자가 포함된 오디오에서는 다음 음성이 지원됩니다.
- en-US-Studio-Multispeaker
- 화자:
R
- 화자:
S
- 화자:
T
- 화자:
U
- 화자:
예시. 이 샘플은 여러 화자를 이용해서 생성된 오디오입니다.
다중 화자 마크업 사용 방법 예시
다음은 다중 화자 마크업을 사용하는 방법을 보여주는 예시입니다.
from google.cloud import texttospeech_v1beta1
# Instantiates a client
client = texttospeech_v1beta1.TextToSpeechClient()
multi_speaker_markup = texttospeech_v1beta1.MultiSpeakerMarkup()
turn1 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn1.text = "I've heard that the Google Cloud multi-speaker audio generation sounds amazing!"
turn1.speaker = "R"
multi_speaker_markup.turns.append(turn1)
turn2 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn2.text = "Oh? What's so good about it?"
turn2.speaker = "S"
multi_speaker_markup.turns.append(turn2)
turn3 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn3.text = "Well.."
turn3.speaker = "R"
multi_speaker_markup.turns.append(turn3)
turn4 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn4.text = "Well what?"
turn4.speaker = "S"
multi_speaker_markup.turns.append(turn4)
turn5 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn5.text = "Well, you should find it out by yourself!"
turn5.speaker = "R"
multi_speaker_markup.turns.append(turn5)
turn6 = texttospeech_v1beta1.MultiSpeakerMarkup.Turn()
turn6.text = "Alright alright, let's try it out!"
turn6.speaker = "S"
multi_speaker_markup.turns.append(turn6)
# Set the text input to be synthesized
synthesis_input = texttospeech_v1beta1.SynthesisInput(multi_speaker_markup=multi_speaker_markup)
# Build the voice request, select the language code ('en-US') and the ssml
# voice gender ('neutral')
voice = texttospeech_v1beta1.VoiceSelectionParams(
language_code="en-US", name="en-US-Studio-MultiSpeaker"
)
# Select the type of audio file you want returned
audio_config = texttospeech_v1beta1.AudioConfig(
audio_encoding=texttospeech_v1beta1.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open("output.mp3", "wb") as out:
# Write the response to the output file.
out.write(response.audio_content)
print('Audio content written to file "output.mp3"')