Diese Seite wurde von der Cloud Translation API übersetzt.

Anforderungen an Trainingsdaten

Das Training einer benutzerdefinierten Stimme kann eine aufregende Erfahrung sein. Folgen Sie dieser Anleitung und arbeiten Sie mit einem Sprachpartner oder Regisseur zusammen, damit das resultierende Modell Ihrer Vision entspricht.

Eine gewisse stilistische Variabilität trägt dazu bei, eine Stimme zum Leben zu erwecken, aber eine konsistente Leistung ist bei den Aufnahmen wichtig. Aufnahmen mit erheblichen Veränderungen in den Bereichen Ausdruck, Sprecheridentität oder Projektionsebene oder mit stimmlichen Veränderungen (etwa wegen Müdigkeit) sollten wiederholt werden, möglichst nach einer kurzen Pause für den Sprecher. Es sollten regelmäßig Referenzdateien als Muster für den Sprecher und den Regisseur abgespielt werden, um Konsistenz für alle aufgenommenen Zeilen zu gewährleisten.

Skripterstellung

Wenn Sie Ihr eigenes Script erstellen, sollte das Format einem ähnlichen Muster folgen:

500 einzelne Aufnahmen (Die Gesamtzeit aller Aufnahmedateien sollte etwa 20 bis 30 Minuten betragen.)
Etwa eine Aufnahme pro Zeile

Datenformatierung

Sie müssen eine CSV-Datei angeben, damit der Ton richtig mit dem Skript abgeglichen werden kann. Hier sehen Sie ein Beispiel für eine CSV-Datei.

Jede Aufnahme sollte nur eine Zeile aus dem Skript wiedergeben, die als WAV-Datei gespeichert wird. Benennen Sie Ihre erste Datei 0001.wav, Ihre zweite Datei 0002.wav usw.
Spalte 1: Keine Überschrift. Die Zeilen des Skripts in der Audiodatei.
Der gcloud-Speicher-URI der WAV-Audiodatei. Beispiel: gs://YOUR_BUCKET_NAME/0001.wav
Richte die CSV-Datei genau an der Audiodatei aus, damit es für jede Transkriptzeile entsprechende Audiodateien gibt und keine leeren Zeilen vorhanden sind.
Tipp: Geben Sie in der Transkription nur das an, was gesprochen wird.
- Fügen Sie keine Zeilennummern hinzu (5. Wo sind die Regenbögen?) oder nicht verbalisierte Codes (Die Postleitzahl ist 08654 sollte als Die Postleitzahl ist null acht sechs fünf vier formatiert werden) hinzu.
- Oft weichen die endgültig gesprochenen Worte vom ursprünglichen Skript ab. Die beste Qualität erzielen Sie, wenn Sie die CSV-Datei an das gesprochene Wort anpassen, anstatt das Skript zu kopieren und einzufügen.
- Wenn Sie eine Folge von durch Leerzeichen getrennten Zeichen sehen, sprechen Sie jedes Zeichen einzeln aus. Sprechen Sie jeden Buchstaben in optimieren einzeln aus.

Empfehlungen aufzeichnen

Das sind die Anforderungen für eine ideale Aufnahme. Auch wenn ein Modell ohne Erfüllung dieser Anforderungen trainiert werden kann, können wir die Qualität des Modells nicht garantieren. Die wichtigsten und häufig übersehenen Anforderungen sind:

Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 kHz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch.
Die durchschnittliche Ziellautstärke beträgt -23 LUFS ± 2 (ITU-R BS.1770-3).

Spezifikationen für die Aufnahme

Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 Hz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch.
Die Audiodaten sollten ohne verlustbehaftete Komprimierung aufgezeichnet werden. Ein lineares PCM-Format (LPCM) mit einem WAV-Header ist erforderlich. Stellen Sie Audioinhalte in Mono zur Verfügung.
Professionelles Aufnahmestudio mit niedriger Reflexionszeit (Reflection Time, RT) oder Abklingzeit (Raumton).
- Für alle reflektierenden Oberflächen sollte ein Schaumstoff für die akustische Dämpfung zur Anwendung kommen, bis die RT-Zeit auf das geringst mögliche Maß reduziert ist.
Professionelles Großmembran-Kondensatormikrofon (U87, TLM 193 oder vergleichbar).
Hoher Rauschabstand (Signal-to-Noise Ratio, SNR) mit korrektem Game-Staging und ordnungsgemäßer Mikrofonplatzierung.
Die Audiodateien sollten am Anfang und Ende eine kurze Pause haben (> 100 ms und < 500 ms). Hängen Sie keine Digitalpausen, also keine Sequenzen von 0 an.
Die Audioinhalte sollten flach, ohne Entzerrung, ohne Komprimierung und ohne andere digitale Signalprozessoren aufgezeichnet werden.
Achten Sie darauf, dass die Aufnahme klar ist, d. h. ohne erkennbare Hintergrund- oder Kanalgeräusche.
Die folgenden sprachlichen Artefakte sollten vermieden werden: Stimmliche Veränderungen/Knarren, atembehaftete Übermittlung, Stottern oder unangemessene Pausen in der Mitte eines Satzes

Referenzdateien als Muster

Referenzaufnahmen oder Musterdateien sind Dateien, die zu Beginn eines Aufnahmeprojekts aufgezeichnet werden. Diese Dateien werden im Verlauf des gesamten Aufnahmeprozesses verwendet und dürfen nicht geändert werden. Sie sollen die Hauptmerkmale der Leistung in Bezug auf Sprecher, Lautstärke, Ausdruck, Rhythmus, Artikulation, Intonation und Spektraleigenschaften definieren. Die Musterdatei wird als Referenz für alle nachfolgenden Aufnahmen verwendet. Sie wird bei der Aufnahmesitzung zur Kalibrierung der Signalerfassung verwendet sowie als Anhaltspunkt für eine konsistente Leistung.

Referenzdatei als Muster erstellen

Die Aufnahme von Musterdateien erfolgt in Zusammenarbeit mit dem Regisseur, der den Typ der gewünschten Leistung festlegt, und dem Aufnahmetechniker, der dafür sorgt, dass die richtige Audiopegelebene in der Musterdatei erfasst wird. Alle aufgezeichneten Audiodaten müssen den Merkmalen der Musterdatei entsprechen. Mit diesen Dateien soll dann die Konsistenz der folgenden Parameter während der gesamten Aufnahme sichergestellt werden:

Sprecher- und Stilkontinuität
Grundtonhöhe oder Tonfall für die gewünschte Leistung
Sprechgeschwindigkeit
Volumen

Nächste Schritte

Nachdem die Daten bereit sind, können Sie Ihr benutzerdefiniertes Sprachmodell erstellen.