Das Training einer benutzerdefinierten Stimme kann eine aufregende Erfahrung sein. Folgen Sie dieser Anleitung und arbeiten Sie mit einem Sprachpartner oder Regisseur zusammen, damit das resultierende Modell Ihrer Vision entspricht.
Eine gewisse stilistische Variabilität trägt dazu bei, eine Stimme zum Leben zu erwecken, aber eine konsistente Leistung ist bei den Aufnahmen wichtig. Aufnahmen mit erheblichen Veränderungen in den Bereichen Ausdruck, Sprecheridentität oder Projektionsebene oder mit stimmlichen Veränderungen (etwa wegen Müdigkeit) sollten wiederholt werden, möglichst nach einer kurzen Pause für den Sprecher. Es sollten regelmäßig Referenzdateien als Muster für den Sprecher und den Regisseur abgespielt werden, um Konsistenz für alle aufgenommenen Zeilen zu gewährleisten.
Skripterstellung
Wir empfehlen, ein eigenes Script zu verwenden, das zu Ihrer Persona und Ihren Geschäftsanforderungen passt. Wenn Sie kein Skript haben, können Sie mit Gemini ein Skript erstellen oder unser Skript verwenden, das in jeder der unterstützten Sprachen bereitgestellt wird: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR
Wenn Sie Ihr eigenes Script erstellen, sollte das Format einem ähnlichen Muster folgen:
- 500 einzelne Aufnahmen (Die Gesamtzeit aller Aufnahmedateien sollte etwa 20 bis 30 Minuten betragen.)
- Etwa eine Aufnahme pro Zeile
Datenformatierung
Sie müssen eine CSV-Datei angeben, damit der Ton richtig mit dem Skript abgeglichen werden kann. Hier sehen Sie ein Beispiel für eine CSV-Datei.
- Jede Aufnahme sollte nur eine Zeile aus dem Skript wiedergeben, die als WAV-Datei gespeichert wird. Benennen Sie Ihre erste Datei
0001.wav
, Ihre zweite Datei0002.wav
usw. - Spalte 1: Keine Überschrift. Die Zeilen des Skripts in der Audiodatei.
- Der gcloud-Speicher-URI der WAV-Audiodatei. Beispiel:
gs://YOUR_BUCKET_NAME/0001.wav
- Richte die CSV-Datei genau an der Audiodatei aus, damit es für jede Transkriptzeile entsprechende Audiodateien gibt und keine leeren Zeilen vorhanden sind.
- Tipp: Geben Sie in der Transkription nur das an, was gesprochen wird.
- Fügen Sie keine Zeilennummern hinzu (5. Wo sind die Regenbögen?) oder nicht verbalisierte Codes (Die Postleitzahl ist 08654 sollte als Die Postleitzahl ist null acht sechs fünf vier formatiert werden) hinzu.
- Oft weichen die endgültig gesprochenen Worte vom ursprünglichen Skript ab. Die beste Qualität erzielen Sie, wenn Sie die CSV-Datei an das gesprochene Wort anpassen, anstatt das Skript zu kopieren und einzufügen.
- Wenn Sie eine Folge von durch Leerzeichen getrennten Zeichen sehen, sprechen Sie jedes Zeichen einzeln aus. Sprechen Sie jeden Buchstaben in optimieren einzeln aus.
Empfehlungen aufzeichnen
Das sind die Anforderungen für eine ideale Aufnahme. Auch wenn ein Modell ohne Erfüllung dieser Anforderungen trainiert werden kann, können wir die Qualität des Modells nicht garantieren. Die wichtigsten und häufig übersehenen Anforderungen sind:
- Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 kHz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch.
- Die durchschnittliche Ziellautstärke beträgt -23 LUFS ± 2 (ITU-R BS.1770-3).
Spezifikationen für die Aufnahme
- Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 Hz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch.
- Die Audiodaten sollten ohne verlustbehaftete Komprimierung aufgezeichnet werden. Ein lineares PCM-Format (LPCM) mit einem WAV-Header ist erforderlich. Stellen Sie Audioinhalte in Mono zur Verfügung.
- Professionelles Aufnahmestudio mit niedriger Reflexionszeit (Reflection Time, RT) oder Abklingzeit (Raumton).
- Für alle reflektierenden Oberflächen sollte ein Schaumstoff für die akustische Dämpfung zur Anwendung kommen, bis die RT-Zeit auf das geringst mögliche Maß reduziert ist.
- Professionelles Großmembran-Kondensatormikrofon (U87, TLM 193 oder vergleichbar).
- Hoher Rauschabstand (Signal-to-Noise Ratio, SNR) mit korrektem Game-Staging und ordnungsgemäßer Mikrofonplatzierung.
- Die Audiodateien sollten am Anfang und Ende eine kurze Pause haben (> 100 ms und < 500 ms). Hängen Sie keine Digitalpausen, also keine Sequenzen von 0 an.
- Die Audioinhalte sollten flach, ohne Entzerrung, ohne Komprimierung und ohne andere digitale Signalprozessoren aufgezeichnet werden.
- Achten Sie darauf, dass die Aufnahme klar ist, d. h. ohne erkennbare Hintergrund- oder Kanalgeräusche.
- Die folgenden sprachlichen Artefakte sollten vermieden werden: Stimmliche Veränderungen/Knarren, atembehaftete Übermittlung, Stottern oder unangemessene Pausen in der Mitte eines Satzes
Referenzdateien als Muster
Referenzaufnahmen oder Musterdateien sind Dateien, die zu Beginn eines Aufnahmeprojekts aufgezeichnet werden. Diese Dateien werden im Verlauf des gesamten Aufnahmeprozesses verwendet und dürfen nicht geändert werden. Sie sollen die Hauptmerkmale der Leistung in Bezug auf Sprecher, Lautstärke, Ausdruck, Rhythmus, Artikulation, Intonation und Spektraleigenschaften definieren. Die Musterdatei wird als Referenz für alle nachfolgenden Aufnahmen verwendet. Sie wird bei der Aufnahmesitzung zur Kalibrierung der Signalerfassung verwendet sowie als Anhaltspunkt für eine konsistente Leistung.
Referenzdatei als Muster erstellen
Die Aufnahme von Musterdateien erfolgt in Zusammenarbeit mit dem Regisseur, der den Typ der gewünschten Leistung festlegt, und dem Aufnahmetechniker, der dafür sorgt, dass die richtige Audiopegelebene in der Musterdatei erfasst wird. Alle aufgezeichneten Audiodaten müssen den Merkmalen der Musterdatei entsprechen. Mit diesen Dateien soll dann die Konsistenz der folgenden Parameter während der gesamten Aufnahme sichergestellt werden:
- Sprecher- und Stilkontinuität
- Grundtonhöhe oder Tonfall für die gewünschte Leistung
- Sprechgeschwindigkeit
- Volumen
Nächste Schritte
Nachdem die Daten bereit sind, können Sie Ihr benutzerdefiniertes Sprachmodell erstellen.