Anforderungen an Trainingsdaten

Das Trainieren einer benutzerdefinierten Stimme kann eine spannende Erfahrung sein. Folgen Sie dieser Anleitung und arbeiten Sie mit einem Sprachpartner oder Regisseur zusammen, damit das resultierende Modell Ihrer Vision entspricht.

Eine gewisse stilistische Variabilität trägt dazu bei, eine Stimme zum Leben zu erwecken, aber eine konsistente Leistung ist bei den Aufnahmen wichtig. Aufnahmen mit erheblichen Veränderungen in den Bereichen Ausdruck, Sprecheridentität oder Projektionsebene oder mit stimmlichen Veränderungen (etwa wegen Müdigkeit) sollten wiederholt werden, möglichst nach einer kurzen Pause für den Sprecher. Es sollten regelmäßig Referenzdateien als Muster für den Sprecher und den Regisseur abgespielt werden, um Konsistenz für alle aufgenommenen Zeilen zu gewährleisten.

Skripterstellung

Wir empfehlen, ein eigenes Skript zu verwenden, das Ihrer Identität und Ihren geschäftlichen Anforderungen entspricht. Wenn Sie kein Skript haben, können Sie mit Gemini ein Skript erstellen oder unser Skript verwenden, das in jeder der unterstützten Sprachen bereitgestellt wird: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR

Wenn Sie Ihr eigenes Skript erstellen, sollte das Format einem ähnlichen Muster folgen:

  • 500 einzelne Aufnahmen (die Gesamtzeit aller Aufnahmedateien sollte etwa 20 bis 30 Minuten betragen)
  • Etwa eine Aufnahme pro Zeile

Datenformatierung

Sie müssen eine CSV-Datei bereitstellen, um die Audiodaten korrekt an Ihr Skript anzupassen. Hier sehen Sie ein Beispiel für eine CSV-Datei.

  • Jede Aufnahme sollte nur eine Zeile aus dem Skript wiedergeben, die als WAV-Datei gespeichert wird. Benennen Sie Ihre erste Datei 0001.wav, Ihre zweite Datei 0002.wav usw.
  • Spalte 1: Keine Überschrift. Die Zeilen des Skripts in der Audiodatei.
  • Der gsutil-URI der WAV-Audiodatei. Beispiel: gs://YOUR_BUCKET_NAME/0001.wav
  • Richten Sie die CSV-Datei genau an den Audiodaten aus, damit für jede Transkriptzeile entsprechende Audiodateien vorhanden sind und keine Leerzeilen vorhanden sind.
  • Tipp: Geben Sie in der Transkription nur das an, was gesprochen wird.
    • Fügen Sie keine Zeilennummern (5. Wo sind die Regenbögen?) oder nicht verbalisierte Codes (Die Postleitzahl ist 08654 sollte als Die Postleitzahl ist null acht sechs fünf vier formatiert werden) hinzu.
    • Häufig variieren die endgültigen gesprochenen Wörter vom ursprünglichen Skript. Die beste Qualität erzielen Sie, wenn Sie die CSV-Datei auf das endgültige gesprochene Wort anpassen, anstatt das Skript selbst zu kopieren und einzufügen.
    • Wenn Sie eine Folge von durch Leerzeichen getrennten Zeichen sehen, sprechen Sie jedes Zeichen einzeln aus. Sprechen Sie jeden Buchstaben in optimize einzeln aus.

Empfehlungen für die Aufnahme

Das sind die Anforderungen für eine ideale Aufnahme. Auch wenn ein Modell weiter trainiert werden kann, ohne diese Anforderungen zu erfüllen, können wir die Qualität des Modells nicht garantieren. Die wichtigsten und häufig übersehenen Anforderungen sind: * Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 Hz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch. * Die durchschnittliche Ziellautstärke beträgt -23 LUFS + 2 (ITU-R BS.1770-3).

Spezifikationen für die Aufnahme

  • Standardformat für Audiodatei (48 kHz/24 Bit, WAV). Audiodaten können mit einer höheren Abtastrate aufgezeichnet und auf 48 Hz/24 Bit heruntergerechnet werden. Führen Sie kein Hochrechnen für Audiodaten von niedrigeren Raten durch.
  • Die Audiodaten sollten ohne verlustbehaftete Komprimierung aufgezeichnet werden. Ein lineares PCM-Format (LPCM) mit einem WAV-Header ist erforderlich. Stellen Sie Audioinhalte in Mono zur Verfügung.
  • Professionelles Aufnahmestudio mit niedriger Reflexionszeit (Reflection Time, RT) oder Abklingzeit (Raumton).
    • Für alle reflektierenden Oberflächen sollte ein Schaumstoff für die akustische Dämpfung zur Anwendung kommen, bis die RT-Zeit auf das geringst mögliche Maß reduziert ist.
  • Professionelles Großmembran-Kondensatormikrofon (U87, TLM 193 oder vergleichbar).
  • Hoher Rauschabstand (Signal-to-Noise Ratio, SNR) mit korrektem Game-Staging und ordnungsgemäßer Mikrofonplatzierung.
  • Die Audiodateien sollten am Anfang und Ende eine kurze Pause haben (> 100 ms und < 500 ms). Hängen Sie keine Digitalpausen, also keine Sequenzen von 0 an.
  • Die Audioinhalte sollten flach, ohne Entzerrung, ohne Komprimierung und ohne andere digitale Signalprozessoren aufgezeichnet werden.
  • Achten Sie darauf, dass die Aufnahme klar ist, d. h. ohne erkennbare Hintergrund- oder Kanalgeräusche.
  • Die folgenden sprachlichen Artefakte sollten vermieden werden: Stimmliche Veränderungen/Knarren, atembehaftete Übermittlung, Stottern oder unangemessene Pausen in der Mitte eines Satzes

Referenzdateien als Muster

Referenzaufnahmen oder Musterdateien sind Dateien, die zu Beginn eines Aufnahmeprojekts aufgezeichnet werden. Diese Dateien werden im Verlauf des gesamten Aufnahmeprozesses verwendet und dürfen nicht geändert werden. Sie sollen die Hauptmerkmale der Leistung in Bezug auf Sprecher, Lautstärke, Ausdruck, Rhythmus, Artikulation, Intonation und Spektraleigenschaften definieren. Die Musterdatei wird als Referenz für alle nachfolgenden Aufnahmen verwendet. Sie wird bei der Aufnahmesitzung zur Kalibrierung der Signalerfassung verwendet sowie als Anhaltspunkt für eine konsistente Leistung.

Referenzdatei als Muster erstellen

Die Aufnahme von Musterdateien erfolgt in Zusammenarbeit mit dem Regisseur, der den Typ der gewünschten Leistung festlegt, und dem Aufnahmetechniker, der dafür sorgt, dass die richtige Audiopegelebene in der Musterdatei erfasst wird. Alle aufgezeichneten Audiodaten müssen den Merkmalen der Musterdatei entsprechen. Mit diesen Dateien soll dann die Konsistenz der folgenden Parameter während der gesamten Aufnahme sichergestellt werden:

  • Sprecher- und Stilkontinuität
  • Grundtonhöhe oder Tonfall für die gewünschte Leistung
  • Sprechgeschwindigkeit
  • Volumen

Nächste Schritte

Jetzt, wo die Daten bereit sind, können Sie Ihr benutzerdefiniertes Sprachmodell erstellen.