Esta página mostra como preparar os seus dados tabulares para a preparação de modelos de classificação e regressão no Vertex AI. A qualidade dos dados de preparação afeta a eficácia dos modelos que cria.
Este documento aborda os seguintes tópicos:
Por predefinição, a Vertex AI usa um algoritmo de divisão aleatória para separar os seus dados em três divisões de dados. O Vertex AI seleciona aleatoriamente 80% das linhas de dados para o conjunto de preparação, 10% para o conjunto de validação e 10% para o conjunto de teste. Em alternativa, pode usar uma divisão manual ou uma divisão cronológica, mas isto requer que prepare uma coluna de divisão de dados ou uma coluna de tempo. Saiba mais acerca das divisões de dados.
Requisitos da estrutura de dados
Os dados de preparação têm de estar em conformidade com os seguintes requisitos básicos:
Tipo de requisito | Requisito |
---|---|
Tamanho | O conjunto de dados tem de ter 100 GB ou menos. |
N.º de colunas | O conjunto de dados tem de ter, pelo menos, 2 colunas e, no máximo, 1000 colunas. O conjunto de dados tem de ter um alvo e, pelo menos, uma funcionalidade para preparar o modelo. Idealmente, os dados de preparação têm muito mais de duas colunas. O número máximo de colunas inclui colunas de elementos e não de elementos. |
Coluna de destino | Tem de especificar uma coluna de destino. A coluna de destino permite que o Vertex AI associe os dados de preparação ao resultado pretendido. Não pode conter valores nulos e tem de ser categórico ou numérico. Se for categórico, tem de ter, pelo menos, 2 e, no máximo, 500 valores distintos. |
Formato do nome da coluna | O nome da coluna pode incluir qualquer caráter alfanumérico ou um sublinhado (_ ). O nome da coluna não pode começar com um sublinhado. |
N.º de linhas | O conjunto de dados tem de ter, pelo menos, 1000 linhas e, no máximo, 100 000 000 linhas. Consoante o número de funcionalidades que o seu conjunto de dados tem, 1000 linhas podem não ser suficientes para preparar um modelo de elevado desempenho. Saiba mais. |
Formato de dados | Use o formato de dados adequado (amplo ou restrito) para o seu objetivo. Geralmente, o formato largo é o melhor, com cada linha a representar um item de dados de preparação (produto, pessoa, etc.). Saiba como escolher o formato de dados. |
Prepare a origem da importação
Pode fornecer dados de preparação de modelos ao Vertex AI em dois formatos:
- Tabelas do BigQuery
- Valores separados por vírgulas (.csv)
A origem que usa depende da forma como os seus dados são armazenados, bem como do tamanho e da complexidade dos mesmos. Se o conjunto de dados for pequeno e não precisar de tipos de dados mais complexos, o CSV pode ser mais fácil. Para conjuntos de dados maiores que incluem matrizes e estruturas, use o BigQuery.
BigQuery
A tabela ou a vista do BigQuery tem de estar em conformidade com os requisitos de localização do BigQuery.
Se a tabela ou a vista do BigQuery estiver num projeto diferente do projeto onde está a criar o conjunto de dados do Vertex AI, ou se a tabela ou a vista do BigQuery for suportada por uma origem de dados externa, adicione uma ou mais funções ao agente de serviço do Vertex AI. Consulte os requisitos de adição de funções para o BigQuery.
Não precisa de especificar um esquema para a tabela do BigQuery. O Vertex AI infere automaticamente o esquema da sua tabela quando importa os dados.
O URI do BigQuery (que especifica a localização dos dados de preparação) tem de estar em conformidade com o seguinte formato:
bq://<project_id>.<dataset_id>.<table_id>
O URI não pode conter outros carateres especiais.
Para obter informações sobre os tipos de dados do BigQuery e como são mapeados no Vertex AI, consulte o artigo Tabelas do BigQuery. Para mais informações sobre a utilização de origens de dados externas do BigQuery, consulte o artigo Introdução a origens de dados externas.
CSV
Os ficheiros CSV podem estar no Cloud Storage ou no seu computador local. Têm de estar em conformidade com os seguintes requisitos:
- A primeira linha do primeiro ficheiro tem de ser um cabeçalho com os nomes das colunas. Se a primeira linha de um ficheiro subsequente for igual ao cabeçalho, a linha também é tratada como um cabeçalho. Caso contrário, a linha é tratada como dados.
- Os nomes das colunas podem incluir qualquer caráter alfanumérico ou um sublinhado (_). O nome da coluna não pode começar por um sublinhado.
Cada ficheiro não pode ter mais de 10 GB.
Pode incluir vários ficheiros, até um máximo de 100 GB.
O delimitador tem de ser uma vírgula (",").
Não tem de especificar um esquema para os seus dados CSV. O Vertex AI infere automaticamente o esquema da sua tabela quando importa os dados e usa a linha de cabeçalho para os nomes das colunas.
Para mais informações sobre o formato de ficheiro CSV e os tipos de dados, consulte o artigo Ficheiros CSV.
Se importar os seus dados do Cloud Storage, estes têm de estar num contentor que cumpra os seguintes requisitos:
- Está em conformidade com os requisitos do contentor do Vertex AI.
- Se o contentor não estiver no mesmo projeto que o Vertex AI, adicione uma ou mais funções ao agente de serviço do Vertex AI. Consulte os requisitos de adição de funções para o Cloud Storage.
Se importar os dados do seu computador local, tem de ter um contentor do Cloud Storage que cumpra os seguintes requisitos:
- Está em conformidade com os requisitos do contentor do Vertex AI.
Se o contentor não estiver no mesmo projeto que o Vertex AI, adicione uma ou mais funções ao agente de serviço do Vertex AI. Consulte os requisitos de adição de funções para o Cloud Storage.
A Vertex AI usa este contentor como uma área de preparação antes de importar os seus dados.
Adicione ponderações aos dados de preparação
Por predefinição, o Vertex AI pondera cada linha dos seus dados de preparação de igual modo. Para fins de preparação, nenhuma linha é considerada mais importante do que outra.
Por vezes, pode querer que algumas linhas tenham mais importância para a preparação. Por exemplo, se usar dados de gastos, pode querer que os dados associados a pessoas que gastam mais tenham um impacto maior no modelo. Se quiser evitar perder um resultado específico, pondere mais as linhas com esse resultado.
Atribua uma ponderação relativa às linhas adicionando uma coluna de ponderação ao conjunto de dados. A coluna de peso tem de ser uma coluna numérica. O valor do peso pode ser de 0 a 10 000. Os valores mais elevados indicam que a linha é mais importante ao preparar o modelo. Um peso de 0 faz com que a linha seja ignorada. Se incluir uma coluna de ponderação, esta tem de conter um valor para cada linha.
Posteriormente, quando preparar o modelo, especifique esta coluna como a coluna Weight
.
Os esquemas de ponderação personalizados são usados apenas para preparar o modelo. Não afetam o conjunto de testes usado para a avaliação do modelo.
O que se segue?
- Crie o seu conjunto de dados.
- Saiba mais sobre as práticas recomendadas para criar dados de preparação tabulares.
- Saiba como o Vertex AI funciona com diferentes tipos de dados tabulares.