Organize os dados de preparação

Esta página descreve como preparar os dados tabulares para a preparação de modelos de previsão.

Esta página aborda os seguintes tópicos:

  1. Requisitos da estrutura de dados
  2. Prepare a origem da importação
  3. Adicione pesos aos dados de treino

Por predefinição, o Vertex AI usa um algoritmo de divisão cronológica para separar os dados de previsão em três divisões de dados. Em alternativa, pode usar uma divisão manual, mas isto requer que prepare uma coluna de divisão de dados. Saiba mais acerca das divisões de dados.

Requisitos da estrutura de dados

Para modelos de previsão, os dados de preparação têm de estar em conformidade com os seguintes requisitos básicos:

Tipo de requisito Requisito
Tamanho O conjunto de dados tem de ter 100 GB ou menos.
N.º de colunas O conjunto de dados tem de ter, pelo menos, 3 colunas e, no máximo, 100 colunas. Cada uma das observações no conjunto de dados tem de ter um alvo e uma hora, que funcionam como caraterísticas. Além disso, cada observação tem de ter um ID de intervalo temporal, que identifica o intervalo temporal do qual a observação faz parte. Idealmente, os dados de preparação têm muito mais de 3 colunas. O número máximo de colunas inclui colunas de elementos e não de elementos.
Coluna de destino Especifique uma coluna de destino. A coluna de destino permite que o Vertex AI associe os dados de preparação ao resultado pretendido. Não pode conter valores nulos e tem de ser numérico.
Coluna Hora Tem de especificar uma coluna de tempo e esta tem de ter um valor para cada linha. A coluna Hora indica a hora em que foi feita uma determinada observação.
Coluna do identificador de intervalos temporais Tem de especificar uma coluna de identificador de série cronológica e esta tem de ter um valor para cada linha. Normalmente, os dados de preparação de previsão incluem vários intervalos temporais, e o identificador indica ao Vertex AI a que intervalo temporal pertence uma determinada observação nos dados de preparação. Todas as linhas numa determinada série cronológica têm o mesmo valor na coluna do identificador da série cronológica. Alguns identificadores de séries cronológicas comuns podem ser o ID do produto, o ID de uma loja ou uma região. É possível formar um modelo de previsão numa única série cronológica, com um valor idêntico para todas as linhas na coluna do identificador de série cronológica. No entanto, o Vertex AI é mais adequado para dados de preparação que contêm duas ou mais séries cronológicas. Para obter os melhores resultados, use, pelo menos, 10 séries cronológicas para cada coluna que usar para preparar o modelo.
Formato do nome da coluna O nome da coluna pode incluir qualquer caráter alfanumérico ou um sublinhado (_). O nome da coluna não pode começar com um sublinhado.
N.º de linhas O conjunto de dados tem de ter, pelo menos, 1000 linhas e, no máximo, 100 000 000 linhas. Se existirem mais de 100 000 000 de linhas, considere reduzir a amostragem. Para mais informações, consulte o artigo Estratégias de janela contínua. Consoante o número de funcionalidades que o seu conjunto de dados tem, 1000 linhas podem não ser suficientes para preparar um modelo de elevado desempenho. Saiba mais.
Formato de dados Use o formato de dados estreito (por vezes denominado longo). No formato estreito, cada linha representa o artigo especificado pelo identificador de intervalo temporal para um ponto específico no tempo, juntamente com todos os dados desse artigo nesse ponto no tempo. Saiba como escolher o formato de dados.
Intervalo entre linhas O intervalo entre as linhas de preparação tem de ser consistente. Esta é a granularidade dos seus dados, que afeta a forma como o modelo é preparado e a frequência dos resultados da inferência. Saiba como escolher o nível de detalhe dos dados.
Duração dos intervalos temporais O comprimento de uma série cronológica não pode exceder 3000 passos de tempo.

Prepare a origem da importação

Pode fornecer dados de preparação de modelos ao Vertex AI em dois formatos:

  • Tabelas do BigQuery
  • Valores separados por vírgulas (.csv)

A origem que usa depende da forma como armazena os seus dados, bem como do tamanho e da complexidade dos mesmos. Se o conjunto de dados for pequeno e não precisar de tipos de dados mais complexos, o CSV pode ser mais fácil. Para conjuntos de dados maiores que incluem matrizes e estruturas, use o BigQuery.

BigQuery

A tabela ou a vista do BigQuery tem de estar em conformidade com os requisitos de localização do BigQuery.

Se a tabela ou a vista do BigQuery estiver num projeto diferente do projeto onde está a criar o conjunto de dados do Vertex AI, ou se a tabela ou a vista do BigQuery for suportada por uma origem de dados externa, adicione uma ou mais funções ao agente de serviço do Vertex AI. Consulte os requisitos de adição de funções para o BigQuery.

Não precisa de especificar um esquema para a tabela do BigQuery. O Vertex AI infere automaticamente o esquema da sua tabela quando importa os dados.

O URI do BigQuery (que especifica a localização dos dados de preparação) tem de estar em conformidade com o seguinte formato:

bq://<project_id>.<dataset_id>.<table_id>

O URI não pode conter outros carateres especiais.

Para obter informações sobre os tipos de dados do BigQuery e como são mapeados no Vertex AI, consulte o artigo Tabelas do BigQuery. Para mais informações sobre a utilização de origens de dados externas do BigQuery, consulte o artigo Introdução a origens de dados externas.

CSV

Os ficheiros CSV podem estar no Cloud Storage ou no seu computador local. Têm de estar em conformidade com os seguintes requisitos:

  • A primeira linha do primeiro ficheiro tem de ser um cabeçalho com os nomes das colunas. Se a primeira linha de um ficheiro subsequente for igual ao cabeçalho, também é tratada como um cabeçalho. Caso contrário, é tratada como dados.
  • Os nomes das colunas podem incluir qualquer caráter alfanumérico ou um sublinhado (_). O nome da coluna não pode começar por um sublinhado.
  • Cada ficheiro não pode ter mais de 10 GB.

    Pode incluir vários ficheiros, até um máximo de 100 GB.

  • O delimitador tem de ser uma vírgula (",").

Não tem de especificar um esquema para os seus dados CSV. O Vertex AI infere automaticamente o esquema da sua tabela quando importa os dados e usa a linha de cabeçalho para os nomes das colunas.

Para mais informações sobre o formato de ficheiro CSV e os tipos de dados, consulte o artigo Ficheiros CSV.

Se importar os seus dados do Cloud Storage, estes têm de estar num contentor que cumpra os seguintes requisitos:

Se importar os dados do seu computador local, tem de ter um contentor do Cloud Storage que cumpra os seguintes requisitos:

Adicione ponderações aos dados de preparação

Por predefinição, o Vertex AI pondera cada linha dos seus dados de preparação de igual modo. Para fins de preparação, nenhuma linha é considerada mais importante do que outra.

Por vezes, pode querer que algumas linhas tenham mais importância para a preparação. Por exemplo, se usar dados de gastos, pode querer que os dados associados a pessoas que gastam mais tenham um impacto maior no modelo. Se quiser especialmente evitar perder um resultado específico, pondere mais as linhas com esse resultado.

Adicione uma coluna de peso ao conjunto de dados para atribuir um peso relativo às linhas. A coluna de peso tem de ser uma coluna numérica. O valor do peso pode ser de 0 a 10 000. Os valores mais elevados indicam que a linha é mais importante ao preparar o modelo. Um peso de 0 faz com que a linha seja ignorada. Se incluir uma coluna de ponderação, esta tem de conter um valor para cada linha.

Posteriormente, quando preparar o modelo, especifique esta coluna como a coluna Weight.

Os esquemas de ponderação personalizados são usados apenas para preparar o modelo. Não afetam o conjunto de testes usado para a avaliação do modelo.

O que se segue?