Requisitos de datos de entrenamiento

Entrenar una voz personalizada puede ser una experiencia emocionante. Para asegurarte de que el modelo resultante cumpla con tu visión, sigue estas instrucciones y considera trabajar con un socio o director de voz.

Si bien parte de la variabilidad estilística ayuda a dar vida a una voz, la coherencia de rendimiento es importante en todas tus grabaciones. Cualquier grabación con cambios significativos en la energía, la personalidad, el nivel de proyección o la voz con crujido (por ejemplo, debido al cansancio) se debe volver a registrar, posiblemente después de un breve descanso del actor de voz. Los archivos de referencia de coincidencia se deben reproducir con regularidad para el actor y el director a fin de garantizar la coherencia en todas las líneas grabadas.

Uso de guion

Si compilas tu propia secuencia de comandos, el formato debe seguir un patrón similar:

500 grabaciones individuales (la suma total de todos los archivos de grabación debe ser de entre 20 y 30 minutos)
Aproximadamente una grabación por línea

Formato de datos

Deberás proporcionar un archivo CSV para ayudar a alinear correctamente el audio con tu secuencia de comandos. Este es un archivo CSV de ejemplo.

Cada grabación debe incluir solo una línea del guion, guardada como archivo WAV. Asigna el nombre 0001.wav a tu primer archivo, asigna el nombre 0002.wav a tu segundo archivo, y así sucesivamente.
Columna 1: Sin encabezado Las líneas de la secuencia de comandos en el archivo de audio.
El URI de almacenamiento de gcloud del archivo de audio WAV. Por ejemplo: gs://YOUR_BUCKET_NAME/0001.wav.
Alinea el archivo CSV con el audio exactamente de modo que haya archivos de audio correspondientes para cada línea de transcripción y que no haya líneas en blanco.
Sugerencia: Solo incluye lo que se habla en la transcripción.
- No agregues números de línea (5. ¿Dónde están los arcoíris?) o códigos sin clasificar (el código postal es 08654 debe tener el formato El código postal es cero ocho seis cinco cuatro).
- A menudo, las palabras habladas finales varían de la secuencia de comandos inicial. Para obtener la mejor calidad, asegúrate de ajustar el archivo CSV a la palabra hablada final en lugar de copiar y pegar la secuencia de comandos.
- Si ves una secuencia de caracteres separados por espacios, pronuncia cada carácter de forma individual. pronuncia cada letra en optimize de forma individual.

Recomendaciones para la grabación

Estos son los requisitos de grabación ideales. Si bien un modelo aún se puede entrenar sin cumplir con estos requisitos, no podemos garantizar su calidad. Los requisitos más importantes y que se suelen omitir son los siguientes:

Formato de archivo de audio estándar (48kHz/24bit, WAV). El audio puede grabarse con una tasa de muestreo más alta y reducirse a 48kHz/24bit. No aumentes el muestreo del audio desde velocidades más bajas.
El volumen promedio objetivo es -23 LUFS +- 2 (ITU-R BS.1770-3).a

Especificaciones de la grabación

Formato de archivo de audio estándar (48kHz/24bit, WAV). El audio puede grabarse con una tasa de muestreo más alta y reducirse a 48kHz/24bit. No aumentes el muestreo del audio desde velocidades más bajas.
El audio debe grabarse sin ninguna compresión con pérdida. Se requiere el formato PCM lineal (LPCM) con un encabezado WAV. Proporciona audio mono.
Estudio de grabación profesional de alta calidad con bajo tiempo de reflexión (RT) o tiempo de disminución (sonido de habitación).
- Las superficies reflectantes deben tener una estructura de tratamiento acústico que se aplica hasta que se reduce el tiempo de RT, lo más bajo posible.
Micrófono de condensación de diafragma grande (U87, TLM 193 o comparable).
Proporción señal/ruido (SNR) con distribución de ganancia y ubicación del micrófono adecuadas.
Los archivos de audio deben tener silencios cortos al principio y al final (>100 ms y <500 ms). No agregues silencio digital (es decir, agrega secuencias de 0).
El audio debe grabarse sin ecualización, compresión ni otra DSP.
Asegúrate de que la grabación esté limpia, sin un canal de ruido o de fondo obvio.
Artefactos lingüísticos específicos que se deben evitar: voz con crujido, voz susurrante, tartamudeo, pausas inapropiadas en medio de una oración

Haz coincidir los archivos de referencia

Las grabaciones de referencia, o archivos coincidentes, son archivos que se capturan al comienzo de un proyecto de grabación. Estos archivos se usan durante todo el proyecto de grabación y no deben cambiar. Representan las características distintivas de la interpretación en términos de persona, volumen, energía, cadencia, articulación, entonación y propiedades espectrales. El archivo de coincidencia se usa como referencia para todas las grabaciones posteriores. Se usa durante una sesión de grabación para calibrar la captura de señal y proporcionar orientación y coherencia para una interpretación.

Crea un archivo de referencia de coincidencia

El proceso de grabación de archivos de coincidencias se realiza en colaboración con el director (que indica el tipo de interpretación que buscas) y el ingeniero de grabación (que se asegura de que el nivel adecuado de especificación de audio se capture en el archivo coincidente). Todo el audio grabado debe cumplir con las funciones del archivo de coincidencia. Usa estos archivos para garantizar la coherencia de los siguientes parámetros durante la grabación:

Continuidad de la personalidad y el estilo
Tono raíz o timbre de la actuación
Frecuencia de discurso
Volumen

¿Qué sigue?

Ahora que los datos están listos, puedes crear tu modelo de voz personalizado.