Prepare los datos de entrenamiento

En esta página, se muestra cómo preparar los datos tabulares para entrenar modelos de clasificación y regresión en Vertex AI. La calidad de los datos de entrenamiento afecta la efectividad de los modelos que creas.

Se tratan los siguientes temas:

  1. Requisitos de estructura de los datos
  2. Prepara tu fuente de importación
  3. Agrega pesos a tus datos de entrenamiento

De forma predeterminada, Vertex AI usa un algoritmo de división aleatoria para separar los datos en las tres divisiones de datos. Vertex AI selecciona de forma aleatoria el 80% de tus filas de datos para el conjunto de entrenamiento, el 10% para el conjunto de validación y el 10% para el conjunto de prueba. Como alternativa, puedes usar una división manual o una división cronológica, pero esto requiere que prepares una columna de división de datos o una columna de tiempo. Obtén más información sobre las divisiones de datos.

Requisitos de estructura de los datos

Los datos de tu entrenamiento deben cumplir con los siguientes requisitos básicos:

Tipo de requisito Requisito
Size El conjunto de datos debe ser de 100 GB o menos.
# de columnas El conjunto de datos debe tener al menos 2 columnas o no más de 1,000. El conjunto de datos debe tener un objetivo y, al menos, un atributo para entrenar el modelo. Lo ideal es que tus datos de entrenamiento tengan más de dos columnas. La cantidad máxima de columnas incluye columnas de atributos y las que no son de atributos.
Columna objetivo Debes especificar una columna de destino. La columna de destino permite que Vertex AI asocie los datos de entrenamiento con el resultado deseado. No debe contener valores nulos y debe ser categórica o numérica. Si es categórica, debe tener al menos 2 y no más de 500 valores distintos.
Formato del nombre de la columna El nombre de la columna puede incluir cualquier carácter alfanumérico o guion bajo (_). El nombre de la columna no puede comenzar con un guion bajo.
de # filas El conjunto de datos debe tener al menos 1,000 filas y no más de 100,000,000. Según la cantidad de elementos que tenga el conjunto de datos, es posible que 1,000 filas no sean suficientes para entrenar un modelo de alto rendimiento. Obtén más información.
Formato de los datos Debes usar el formato de datos adecuado (ancho o acotado) para tu objetivo. Por lo general, el formato amplio es el mejor, con cada fila que representa un elemento de datos de entrenamiento (producto, persona, etcétera). Obtén información sobre cómo elegir el formato de los datos.

Prepara tu fuente de importación

Puedes proporcionar datos de entrenamiento de modelos a Vertex AI en dos formatos:

  • Tablas de BigQuery
  • Valores separados por comas (CSV)

La fuente que uses dependerá de cómo se almacenen tus datos y del tamaño y la complejidad de tus datos. Si tu conjunto de datos es pequeño y no necesitas tipos de datos más complejos, el CSV puede ser más fácil. Para conjuntos de datos más grandes que incluyen arreglos y estructuras, debes usar BigQuery.

BigQuery

La tabla o vista de BigQuery debe cumplir con los requisitos de ubicación de BigQuery.

Si la tabla o vista de BigQuery está en un proyecto diferente del proyecto en el que creas tu conjunto de datos de Vertex AI, o la tabla o vista de BigQuery está respaldada por una fuente de datos externa, es posible que debas agregar una o más roles al agente de servicio de Vertex AI. Consulta Requisitos de adición de roles para BigQuery.

No es necesario que especifiques un esquema para tu tabla de BigQuery. Vertex AI infiere el esquema de tu tabla de forma automática cuando importas los datos.

Tu URI de BigQuery (que especifica la ubicación de tus datos de entrenamiento) debe cumplir con el siguiente formato:

bq://<project_id>.<dataset_id>.<table_id>

El URI no puede contener ningún otro carácter especial.

Para obtener información sobre los tipos de datos de BigQuery y cómo se asignan a Vertex AI, consulta la página sobre tablas de BigQuery. Para obtener más información sobre el uso de fuentes de datos externas de BigQuery, consulta Introducción a las fuentes de datos externas.

CSV

Los archivos CSV pueden estar en Cloud Storage o en tu computadora local. Deben cumplir con los siguientes requisitos:

  • La primera línea del primer archivo debe ser un encabezado que contenga los nombres de las columnas. Si la primera fila de un archivo posterior es igual que el encabezado, también se trata como un encabezado; de lo contrario, se tratará como datos.
  • Los nombres de las columnas pueden incluir cualquier carácter alfanumérico o guion bajo (_). El nombre de la columna no puede comenzar con un guion bajo.
  • Cada archivo no debe superar los 10 GB.

    Puedes incluir varios archivos, hasta un máximo de 100 GB.

  • El delimitador debe ser una coma (“,”).

No es necesario que especifiques un esquema para tus datos de CSV. Vertex AI infiere de manera automática el esquema de tu tabla cuando importas los datos y usa la fila de encabezado para los nombres de columna.

Para obtener más información sobre el formato de archivo CSV y los tipos de datos, consulta la sección sobre archivos CSV.

Si importas tus datos desde Cloud Storage, deben estar en un bucket que cumpla con los siguientes requisitos:

Si importas tus datos desde una computadora local, debes tener un bucket de Cloud Storage que cumpla con los siguientes requisitos:

Agrega pesos a tus datos de entrenamiento

De forma predeterminada, Vertex AI pondera cada fila de tus datos de entrenamiento de la misma manera. Para fines de entrenamiento, ninguna fila se considera más importante que otra.

A veces, puede ser deseable que algunas filas tengan más importancia para el entrenamiento. Por ejemplo, si usa datos de inversión, puede que quieras que los datos asociados con los usuarios que gastan más dinero tengan un mayor impacto en el modelo. Si deseas evitar que un resultado específico esté faltante, puedes ponderar las filas con ese resultado de manera más intensa.

Agrega una columna de ponderación a tu conjunto de datos para darles un peso relativo a las filas. La columna de ponderación debe ser una columna numérica. El valor del peso puede ser de 0 a 10,000. Los valores más altos indican que la fila es más importante cuando se entrena el modelo. Un peso de 0 hace que se ignore la fila. Si incluyes una columna de ponderación, debe contener un valor para cada fila.

Más adelante, cuando entrenes el modelo, especifica esta columna como la columna Weight.

Los esquemas de ponderación personalizados se usan solo para entrenar el modelo. No afectan el conjunto de prueba que se usa para la evaluación del modelo.

¿Qué sigue?