Organize os dados de preparação

Saiba como preparar os dados de áudio e texto para o ajuste preciso de um modelo de conversão de voz em texto personalizado na Google Cloud consola Speech. A qualidade dos dados de preparação afeta a eficácia dos modelos que cria. Tem de compor um conjunto de dados diversificado que contenha contexto de áudio e texto representativo diretamente relevante para o que o modelo vai responder durante o tempo de inferência em produção, incluindo ruído e vocabulário invulgar.

Para o treino eficaz de um modelo de conversão de voz em texto personalizado, precisa do seguinte:

  • Mínimo de 100 horas de áudio de dados de preparação, apenas áudio ou com a transcrição de texto correspondente como dados reais. Estes dados são cruciais para a fase de preparação inicial, para que o modelo aprenda as nuances dos padrões de voz e do vocabulário. Para ver detalhes, consulte o artigo Crie um conjunto de dados de verdade absoluta
  • Um conjunto de dados separado de, pelo menos, 10 horas de áudio de dados de validação, com a transcrição de texto correspondente como verdade fundamental.

Antes de começar

Certifique-se de que se inscreveu numa Google Cloud conta, criou um Google Cloud projeto e ativou a API Speech-to-Text:

  1. Navegue para o Cloud Storage.
  2. Crie um contentor, se ainda não tiver um.

Crie um conjunto de dados

Para criar um conjunto de dados, tem de criar duas subdiretorias no contentor do Cloud Storage à sua escolha. Siga convenções de nomenclatura simples:

  1. Crie um subdiretório training_dataset para armazenar todos os ficheiros de preparação.
  2. Crie um subdiretório validation_dataset para armazenar todos os ficheiros de preparação.
  3. Carregue os ficheiros de áudio e texto nos diretórios seguindo as diretrizes de anotação de dados reais.

Diretrizes do conjunto de dados

  • Para a preparação e a validação, os formatos de ficheiros suportados são .wav para ficheiros de áudio na codificação LINEAR16 e .txt para ficheiros de texto, se disponíveis. Evite carateres não ASCII nos nomes dos ficheiros.
  • Os ficheiros de áudio no mesmo diretório devem ser fornecidos num ficheiro TXT separado, cada um com o mesmo nome do ficheiro WAV correspondente, por exemplo, my_file_1.wav, my_file_1.txt. Deve existir apenas um ficheiro de transcrição por ficheiro de áudio.

Dados de preparação

  • Todos os ficheiros para preparação têm de ser fornecidos no mesmo diretório, sem pastas aninhadas.
  • Opcional: se estiverem disponíveis, forneça transcrições dos ficheiros de áudio. Não são necessárias indicações de tempo.
  • Certifique-se de que a duração total dos ficheiros de áudio é superior a 100 horas. Caso contrário, a tarefa de preparação falha.

Segue-se um exemplo do aspeto da estrutura de diretórios após o carregamento dos ficheiros como um conjunto de dados de preparação:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Dados de validação

  • Todos os ficheiros para validação são fornecidos no mesmo diretório denominado validation_dataset sem pastas aninhadas.
  • Os áudios de validação não devem ter mais de 30 segundos cada.
  • Forneça transcrições de dados reais para cada um dos ficheiros de áudio no mesmo diretório num ficheiro TXT separado.

Segue-se um exemplo do aspeto que a estrutura de diretórios deve ter após o carregamento dos ficheiros como um conjunto de dados de validação:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Diretrizes de anotação de exatidão

Consulte as seguintes instruções de formatação.

Numbers

Os números cardinais e ordinais devem ser transcritos apenas em dígitos.

  • Áudio: "Um baralho de cartas tem cinquenta e duas cartas, treze valores dos quatro naipes, ouros, copas e espadas"
  • Texto de referência: "Um baralho tem 52 cartas, 13 valores dos quatro naipes, ouros, copas, paus e espadas"

Moeda e unidades

Transcreva-os como são normalmente escritos no local da transcrição. Abreviar todas as unidades que seguem valores numéricos. Se for claro pelo contexto que um número ou uma sequência de números se refere a moeda ou tempo, formate-o como tal.

Data e hora

Transcrever na forma comum para datas e horas usada no idioma de transcrição. Escreva horas no formato hh:mm, sempre que possível.

Moradas

Transcreva com os nomes completos de localizações, estradas e estados, por exemplo, com abreviaturas quando forem ditas explicitamente. As entidades e as localizações devem ser transcritas com uma vírgula entre elas.

Nomes próprios e acentos

Transcreva com a ortografia e a pontuação oficiais. Se um nome pessoal puder ter várias grafias e o contexto não ajudar, use a grafia mais frequente.

Marca, nomes de produtos e títulos de conteúdos multimédia

Transcreva-os tal como estão formatados oficialmente e são escritos mais frequentemente.

Interjeições

O riso ou outras vocalizações que não sejam discurso devem ser transcritas com um máximo de três sílabas. O riso incluído na fala deve ser completamente ignorado. Exemplo:

  • Áudio: "ha ha ha ha ha"
  • Texto de referência: "hahaha"

Vários oradores

Não os separe com etiquetas do interlocutor, uma vez que a diarização geralmente não é suportada.

O que se segue?

Siga os recursos para tirar partido dos modelos de voz personalizados na sua aplicação: