Preparar dados de treinamento

Nesta página, descrevemos como preparar seus dados tabulares para treinar modelos de previsão.

Os seguintes tópicos são abordados:

  1. Requisitos da estrutura de dados
  2. Preparar sua fonte de importação
  3. Adicionar pesos aos dados de treinamento

Por padrão, a Vertex IA usa um algoritmo de divisão cronológica para separar os dados de previsão nas três divisões de dados. Também é possível usar uma divisão manual, mas isso exige que você prepare uma coluna de divisão de dados. Saiba mais sobre as divisões de dados.

Requisitos da estrutura de dados

Para modelos de previsão, os dados de treinamento precisam estar em conformidade com os seguintes requisitos básicos:

Tipo de requisito Requisito
Tamanho O conjunto de dados precisa ter 100 GB ou menos.
# de colunas O conjunto de dados precisa ter entre 3 e 100 colunas. Cada uma das observações no conjunto de dados precisa ter um alvo e um tempo, ambos atuando como atributos. Além disso, cada observação precisa ter um código de série temporal, que identifica a série temporal da qual a observação faz parte. O ideal é que os dados de treinamento contenham muito mais que três colunas. O número máximo de colunas inclui colunas de atributos e não atributos.
Coluna de destino É preciso especificar uma coluna de destino. A coluna de destino permite que a Vertex AI associe os dados de treinamento ao resultado pretendido. Ela não pode conter valores nulos e precisa ser numérico.
Coluna de tempo É necessário especificar uma coluna Data/hora e ter um valor para cada linha. A coluna de tempo indica a hora em que uma determinada observação foi feita.
Coluna de identificador de série temporal É necessário especificar uma coluna identificadora de série temporal, e ela precisa ter um valor para cada linha. Os dados de treinamento de previsão geralmente incluem várias séries temporais, e o identificador informa ao Vertex AI qual série temporal os dados de treinamento fazem parte. Todas as linhas de uma determinada série temporal têm o mesmo valor na coluna do identificador. Alguns identificadores comuns de séries temporais podem ser o ID do produto, o ID da loja ou a região. É possível treinar um modelo de previsão em uma única série temporal, com um valor idêntico para todas as linhas na coluna do identificador de série temporal. No entanto, o Vertex AI é mais adequado para dados de treinamento que contêm duas ou mais séries temporais. Para melhores resultados, use pelo menos 10 séries temporais para cada coluna que você usa para treinar o modelo.
Formato do nome da coluna O nome da coluna pode incluir qualquer caractere alfanumérico ou sublinhado (_). O nome da coluna não pode começar com um sublinhado.
# de linhas O conjunto de dados precisa ter pelo menos 1.000 e no máximo 100.000.000 linhas. É possível que mil linhas não sejam suficientes para treinar um modelo de alto desempenho, dependendo da quantidade de atributos presentes no seu conjunto de dados. Saiba mais.
Formato de dados Use um formato de dados estreito (às vezes chamado de longo). No formato estreito, cada linha representa o item especificado pelo identificador da série temporal para um ponto específico no tempo, junto com todos os dados desse item naquele momento. Saiba como escolher o formato de dados.
Intervalo entre linhas O intervalo entre as linhas de treinamento precisa ser consistente. Essa é a granularidade dos seus dados. Isso afetará a maneira como o modelo é treinado e a frequência dos resultados de previsão. Saiba como escolher a granularidade dos dados.
Duração da série temporal A duração de uma série temporal não pode exceder 3.000 etapas.

Preparar sua fonte de importação

Você pode fornecer dados de treinamento de modelo para o Vertex AI em dois formatos:

  • Tabelas do BigQuery
  • Valores separados por vírgula (CSV)

A fonte que você usa depende de como seus dados são armazenados, do tamanho e da complexidade deles. Se seu conjunto de dados for pequeno e você não precisar de tipos de dados mais complexos, é mais fácil usar um arquivo CSV. No caso de conjuntos de dados maiores, que incluam matrizes e structs, use o BigQuery.

BigQuery

A tabela ou visualização do BigQuery precisa estar em conformidade com os requisitos de local do BigQuery.

Se a tabela ou a visualização do BigQuery estiver em um projeto diferente do projeto em que você está criando o conjunto de dados da Vertex AI ou se a tabela ou visualização do BigQuery for apoiada por uma fonte de dados externa, talvez seja necessário adicionar um ou mais papéis ao Agente de serviço da Vertex AI. Consulte Requisitos de adição de papéis para o BigQuery.

Não é necessário especificar o esquema da tabela do BigQuery. A Vertex AI infere automaticamente o esquema da tabela quando os dados são importados.

O URI do BigQuery, que especifica o local dos dados de treinamento, precisa estar em conformidade com o seguinte formato:

bq://<project_id>.<dataset_id>.<table_id>

O URI não pode conter outros caracteres especiais.

Para informações sobre os tipos de dados do BigQuery e sobre como eles mapeiam para a Vertex AI, consulte Tabelas do BigQuery. Para mais informações sobre o uso de fontes de dados externas do BigQuery, consulte Introdução a fontes de dados externas.

CSV

Os arquivos CSV podem estar no Cloud Storage ou no seu computador local. Eles precisam estar em conformidade com os seguintes requisitos:

  • A primeira linha do primeiro arquivo precisa ser um cabeçalho, contendo os nomes das colunas. Se a primeira linha de um arquivo subsequente for igual ao cabeçalho, ela também será tratada como um cabeçalho; em caso contrário, será tratada como dados.
  • Os nomes das colunas podem incluir qualquer caractere alfanumérico ou um sublinhado (_). No entanto, ele não pode ser iniciado por um sublinhado.
  • Os arquivos não podem ter mais de 10 GB cada um.

    É possível incluir vários arquivos até o máximo de 100 GB.

  • O delimitador precisa ser uma vírgula (",").

Não é necessário especificar o esquema dos dados CSV. A Vertex AI infere automaticamente o esquema da tabela quando os dados são importados e você usa a linha do cabeçalho para nomear as colunas.

Para mais informações sobre o formato de arquivo CSV e tipos de dados, consulte Arquivos CSV.

Se você estiver importando seus dados do Cloud Storage, eles deverão estar em um bucket que atenda aos seguintes requisitos:

Se você estiver importando seus dados do computador local, precisará ter um bucket do Cloud Storage que atenda aos seguintes requisitos:

Adicionar pesos aos dados de treinamento

Por padrão, a Vertex AI pesa cada linha dos dados de treinamento de forma igual. Para fins de treinamento, nenhuma linha é considerada mais importante do que outra.

Às vezes, convém que algumas linhas tenham mais importância para o treinamento. Por exemplo, se você estiver usando dados sobre gastos, talvez queira que os dados associados aos maiores gastadores tenham mais impacto no modelo. Se a falta de um resultado específico é algo que você quer evitar, então atribua mais peso às linhas com tal resultado.

Para atribuir um peso relativo às linhas, adicione uma coluna de peso ao conjunto de dados. A coluna de peso precisa ser numérica. O valor do peso pode ser de 0 a 10.000. Valores mais altos indicam que a linha é mais importante no treinamento do modelo. Um peso 0 faz com que a linha seja ignorada. Se você incluir uma coluna de peso, ela precisará conter um valor para cada linha.

Posteriormente, ao treinar o modelo, especifique essa coluna como Weight.

Esquemas de ponderação personalizados são usados apenas para treinar o modelo. e não afetam o conjunto de testes usado para avaliação de modelos.

A seguir