Prepare los datos de entrenamiento

En esta página, se describe cómo preparar los datos tabulares para el entrenamiento de modelos de previsión.

Se tratan los siguientes temas:

  1. Requisitos de estructura de los datos
  2. Prepara tu fuente de importación
  3. Agrega pesos a tus datos de entrenamiento

De forma predeterminada, Vertex AI usa un algoritmo de división cronológica para separar los datos de previsión en las tres divisiones de datos. Como alternativa, puedes usar una división manual, pero esto requiere que prepares una columna de división de datos. Obtén más información sobre las divisiones de datos.

Requisitos de estructura de los datos

Para los modelos de previsión, tus datos de entrenamiento deben cumplir con los siguientes requisitos básicos:

Tipo de requisito Requisito
Size El conjunto de datos debe ser de 100 GB o menos.
# de columnas El conjunto de datos debe tener al menos 3 columnas o no más de 1,00. Cada una de las observaciones del conjunto de datos debe tener un objetivo y una hora, que actúan como atributos. Además, cada observación debe tener un ID de serie temporal, que identifica la serie temporal de la que forma parte. Lo ideal es que tus datos de entrenamiento tengan más de 3 columnas. La cantidad máxima de columnas incluye columnas de atributos y las que no son de atributos.
Columna objetivo Debes especificar una columna de destino. La columna de destino permite que Vertex AI asocie los datos de entrenamiento con el resultado deseado. No debe contener valores nulos y debe ser numérico.
Columna de tiempo Debes especificar una columna de tiempo y debe tener un valor para cada fila. La columna de tiempo indica la hora en la que se realizó una observación determinada.
Columna de identificador de serie temporal Debes especificar una columna de identificador de serie temporal y debe tener un valor para cada fila. Por lo general, los datos de entrenamiento para previsiones incluyen varias series temporales, y el identificador le indica a Vertex AI de qué serie temporal forma parte una observación determinada en los datos de entrenamiento. Todas las filas de una serie temporal determinada tienen el mismo valor en la columna de identificador de serie temporal. Algunos identificadores de series temporales comunes pueden ser el ID del producto, el ID de una tienda o una región. Es posible entrenar un modelo de previsión en una sola serie temporal, con un valor idéntico para todas las filas de la columna de identificador de serie temporal. Sin embargo, Vertex AI es más adecuada para los datos de entrenamiento que contienen dos o más series temporales. A fin de obtener mejores resultados, usa al menos 10 series temporales para cada columna que uses a fin de entrenar el modelo.
Formato del nombre de la columna El nombre de la columna puede incluir cualquier carácter alfanumérico o guion bajo (_). El nombre de la columna no puede comenzar con un guion bajo.
de # filas El conjunto de datos debe tener al menos 1,000 filas y no más de 100,000,000. Según la cantidad de elementos que tenga el conjunto de datos, es posible que 1,000 filas no sean suficientes para entrenar un modelo de alto rendimiento. Obtén más información.
Formato de los datos Usa el formato de datos estrecho (a veces llamado largo). En formato acotado, cada fila representa el elemento especificado por el identificador de serie temporal para un momento específico, junto con todos los datos de ese elemento en ese momento. Obtén información sobre cómo elegir el formato de los datos.
Intervalo entre filas El intervalo entre las filas de entrenamiento debe ser coherente. Esta es el nivel de detalle de tus datos. Afectará la forma en que se entrena el modelo y la frecuencia de los resultados de la predicción. Obtén información sobre cómo elegir el nivel de detalle de los datos.
Duración de la serie temporal La duración de una serie temporal no debe exceder los 3,000 pasos temporales.

Prepara tu fuente de importación

Puedes proporcionar datos de entrenamiento de modelos a Vertex AI en dos formatos:

  • Tablas de BigQuery
  • Valores separados por comas (CSV)

La fuente que uses dependerá de cómo se almacenen tus datos y del tamaño y la complejidad de tus datos. Si tu conjunto de datos es pequeño y no necesitas tipos de datos más complejos, el CSV puede ser más fácil. Para conjuntos de datos más grandes que incluyen arreglos y estructuras, debes usar BigQuery.

BigQuery

La tabla o vista de BigQuery debe cumplir con los requisitos de ubicación de BigQuery.

Si la tabla o vista de BigQuery está en un proyecto diferente del proyecto en el que creas tu conjunto de datos de Vertex AI, o la tabla o vista de BigQuery está respaldada por una fuente de datos externa, es posible que debas agregar una o más roles al agente de servicio de Vertex AI. Consulta Requisitos de adición de roles para BigQuery.

No es necesario que especifiques un esquema para tu tabla de BigQuery. Vertex AI infiere el esquema de tu tabla de forma automática cuando importas los datos.

Tu URI de BigQuery (que especifica la ubicación de tus datos de entrenamiento) debe cumplir con el siguiente formato:

bq://<project_id>.<dataset_id>.<table_id>

El URI no puede contener ningún otro carácter especial.

Para obtener información sobre los tipos de datos de BigQuery y cómo se asignan a Vertex AI, consulta la página sobre tablas de BigQuery. Para obtener más información sobre el uso de fuentes de datos externas de BigQuery, consulta Introducción a las fuentes de datos externas.

CSV

Los archivos CSV pueden estar en Cloud Storage o en tu computadora local. Deben cumplir con los siguientes requisitos:

  • La primera línea del primer archivo debe ser un encabezado que contenga los nombres de las columnas. Si la primera fila de un archivo posterior es igual que el encabezado, también se trata como un encabezado; de lo contrario, se tratará como datos.
  • Los nombres de las columnas pueden incluir cualquier carácter alfanumérico o guion bajo (_). El nombre de la columna no puede comenzar con un guion bajo.
  • Cada archivo no debe superar los 10 GB.

    Puedes incluir varios archivos, hasta un máximo de 100 GB.

  • El delimitador debe ser una coma (“,”).

No es necesario que especifiques un esquema para tus datos de CSV. Vertex AI infiere de manera automática el esquema de tu tabla cuando importas los datos y usa la fila de encabezado para los nombres de columna.

Para obtener más información sobre el formato de archivo CSV y los tipos de datos, consulta la sección sobre archivos CSV.

Si importas tus datos desde Cloud Storage, deben estar en un bucket que cumpla con los siguientes requisitos:

Si importas tus datos desde una computadora local, debes tener un bucket de Cloud Storage que cumpla con los siguientes requisitos:

Agrega pesos a tus datos de entrenamiento

De forma predeterminada, Vertex AI pondera cada fila de tus datos de entrenamiento de la misma manera. Para fines de entrenamiento, ninguna fila se considera más importante que otra.

A veces, puede ser deseable que algunas filas tengan más importancia para el entrenamiento. Por ejemplo, si usa datos de inversión, puede que quieras que los datos asociados con los usuarios que gastan más dinero tengan un mayor impacto en el modelo. Si deseas evitar que un resultado específico esté faltante, puedes ponderar las filas con ese resultado de manera más intensa.

Agrega una columna de ponderación a tu conjunto de datos para darles un peso relativo a las filas. La columna de ponderación debe ser una columna numérica. El valor del peso puede ser de 0 a 10,000. Los valores más altos indican que la fila es más importante cuando se entrena el modelo. Un peso de 0 hace que se ignore la fila. Si incluyes una columna de ponderación, debe contener un valor para cada fila.

Más adelante, cuando entrenes el modelo, especifica esta columna como la columna Weight.

Los esquemas de ponderación personalizados se usan solo para entrenar el modelo. No afectan el conjunto de prueba que se usa para la evaluación del modelo.

¿Qué sigue?