Requisitos dos dados de treinamento

Treinar uma voz personalizada pode ser uma experiência incrível. Para garantir que o modelo resultante adere à sua visão, siga estas instruções e considere trabalhar com um parceiro ou diretor de voz.

Embora parte da variabilidade de estilo ajude a dar vida à voz, a consistência da performance é importante em todas as gravações. Gravações com alterações significantes em energia, perfil, nível de projeção ou vocal fry (por exemplo, devido à fadiga) devem ser repetidas, possivelmente após uma pequena pausa para a voz do ator. Os arquivos de referência de correspondência precisam ser reproduzidos regularmente para o ator e o diretor para garantir a consistência em todas as linhas gravadas.

Scripts

Recomendamos usar seu próprio script que corresponda às suas necessidades de negócios e perfil. Caso você não tenha um script, é possível criar um com o Gemini ou usar nosso script, que é fornecido em cada um dos idiomas com suporte: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR

Se você criar seu próprio script, o formato deverá seguir um padrão semelhante:

  • 500 gravações individuais (a soma total de todos os arquivos de gravação deve ser de 20 a 30 minutos).
  • Aproximadamente uma gravação por linha

Formatação de dados

Você precisará fornecer um arquivo CSV para ajudar a alinhar corretamente o áudio ao seu script. Confira um exemplo de arquivo CSV.

  • Cada gravação deve incluir apenas uma linha do script, salva como arquivo. Nomeie o primeiro arquivo como 0001.wav, o nome do segundo arquivo 0002.wav e assim por diante.
  • Coluna 1: nenhum cabeçalho. As linhas do script no arquivo de áudio.
  • O gsutil URI do arquivo de áudio WAV. Por exemplo, gs://YOUR_BUCKET_NAME/0001.wav.
  • Alinhe o CSV ao áudio para que haja arquivos de áudio correspondentes para cada linha de transcrição e que não haja linhas em branco.
  • Dica: inclua apenas o que é falado na transcrição.
    • Não adicione números de linha (5. Onde estão o arco-íris?) ou códigos não verbalizados (O CEP é 08654 precisa ser formatado como O CEP é 08654).
    • Muitas vezes, as palavras faladas finais são diferentes do script inicial. Para a melhor qualidade, ajuste o CSV com a última palavra falada em vez de copiar e colar o script.
    • Se você vir uma sequência de caracteres separados por espaços, pronuncie cada caractere individualmente. Pronuncie cada letra em optimize individualmente.

Recomendações de gravação

Estes são os requisitos ideais de gravação. Um modelo ainda pode ser treinado sem atender a esses requisitos, mas não podemos garantir a qualidade dele. Os requisitos mais importantes e negligenciados são os seguintes: * Formato de arquivo de áudio padrão (48 kHz/24 bits, WAV). O áudio pode ser gravado a uma taxa de amostragem maior e a versão reduzida para 48 kHz/24bit. Não faça o aumento da amostragem do áudio de taxas mais baixas. * O volume médio desejado é de -23 LUFS + 2 (ITU-R BS.1770-3).

Especificações de gravação

  • Formato de arquivo de áudio padrão (48kHz/24bit, WAV). O áudio pode ser gravado a uma taxa de amostragem maior e a versão reduzida para 48 kHz/24bit. Não faça o aumento da amostragem do áudio de taxas mais baixas.
  • O áudio precisa ser gravado sem compressão com perda. O formato PCM linear (LPCM, em inglês) é obrigatório com um cabeçalho WAV. Use áudio mono.
  • Estúdio de gravação profissional de alta qualidade com baixo tempo de reflexão (RT) ou redução do tempo (som do ambiente).
    • Todas as superfícies reflexivas têm uma espuma de tratamento acústico aplicada até que o tempo de RT seja reduzido o mais baixo possível.
  • Microfone com condensador profissional de diafragma profissional (U87, TLM 193 ou comparável).
  • A proporção de sinal-ruído (SNR, em inglês) é compatível com o preparo adequado e o posicionamento do microfone.
  • Os arquivos de áudio precisam ter pequenos silêncios no início e no fim (>100 ms e <500 ms). Não adicione silêncio digital (ou seja, adicione sequências de 0).
  • O áudio precisa ser gravado neutro sem equalização, compactação ou outro DSP.
  • Verifique se a gravação está limpa, sem segundo plano óbvio ou ruído no canal.
  • Artefatos linguísticos específicos a serem evitados: vocal fry/creak, fala respiratória, gagueira ou pausas inadequadas no meio de uma frase

Fazer a correspondência de arquivos de referência

Gravações de referência, ou arquivos de correspondência, são arquivos capturados no início de um projeto de gravação. Esses arquivos são usados durante todo o projeto de gravação e não devem ser alterados. Eles representam as características marcantes da performance em termos de persona, volume, energia, cadência, articulação, entonação e propriedades espectrais. O arquivo de correspondência é usado como referência para todas as gravações subsequentes. Ele é usado em uma sessão de gravação para calibrar a captura de sinais e fornecer orientação e consistência para um desempenho.

Criar um arquivo de referência de correspondência

O processo de gravação dos arquivos de correspondência é feito em colaboração com o diretor (que indica o tipo de desempenho que ele busca) e o engenheiro de gravação (que garante que o nível de especificação de áudio apropriado seja capturado no arquivo de correspondência). Todo o áudio gravado precisa estar em conformidade com as características do arquivo de correspondência. Use estes arquivos para garantir a consistência dos parâmetros a seguir durante a gravação:

  • Perfil e estilo de continuidade
  • Altura ou tom raiz do desempenho
  • Taxa de fala
  • Volume

A seguir

Agora que os dados estão prontos, crie seu modelo de voz personalizado.