En esta página se explica cómo crear un conjunto de datos de Vertex AI a partir de datos tabulares para que puedas empezar a entrenar modelos de previsión. Puedes crear un conjunto de datos con la Google Cloud consola o la API de Vertex AI.
Antes de empezar
Antes de crear un conjunto de datos de Vertex AI a partir de tus datos tabulares, prepara los datos de entrenamiento.
Crear un conjunto de datos vacío y asociar los datos preparados
Para crear un modelo de aprendizaje automático para hacer previsiones, debes tener una colección de datos representativa con la que entrenarlo. Usa la Google Cloud consola o la API para asociar los datos preparados al conjunto de datos.
Cuando crea un conjunto de datos, también lo asocia a su fuente de datos. Los datos de entrenamiento pueden ser un archivo CSV en Cloud Storage o una tabla en BigQuery. Si la fuente de datos se encuentra en otro proyecto, asegúrate de configurar los permisos necesarios.
Google Cloud consola
- En la Google Cloud consola, en la sección Vertex AI, ve a la página Conjuntos de datos.
- Haz clic en Crear para abrir la página de detalles de creación del conjunto de datos.
- Modifique el campo Nombre del conjunto de datos para crear un nombre visible descriptivo para el conjunto de datos.
- Selecciona la pestaña Tabular.
- Seleccione el objetivo Previsión.
- Selecciona una región en la lista desplegable Región.
- Haz clic en Crear para crear el conjunto de datos vacío y ve a la pestaña Origen.
- Elige una de las siguientes opciones en función de tu fuente de datos.
Archivos CSV en tu ordenador
- Haz clic en Subir archivos CSV desde tu ordenador.
- Haz clic en Seleccionar archivos y elige todos los archivos locales que quieras subir a un segmento de Cloud Storage.
- En la sección Seleccionar una ruta de Cloud Storage, introduce la ruta del segmento de Cloud Storage o haz clic en Buscar para elegir una ubicación del segmento.
Archivos CSV en Cloud Storage
- Haz clic en Seleccionar archivos CSV de Cloud Storage.
- En la sección Seleccionar archivos CSV de Cloud Storage, introduce la ruta al segmento de Cloud Storage o haz clic en Examinar para elegir la ubicación de los archivos CSV.
Una tabla o una vista de BigQuery
- Haz clic en Selecciona una tabla o vista de BigQuery.
- Introduzca los IDs del proyecto, del conjunto de datos y de la tabla del archivo de entrada.
- Haz clic en Continuar.
La fuente de datos está asociada al conjunto de datos.
-
En la pestaña Analizar, especifica la columna Marca de tiempo y la columna Identificador de serie de este conjunto de datos.
También puede especificar estas columnas al entrenar el modelo, pero, por lo general, un conjunto de datos de previsión tiene columnas de tiempo y de identificador de serie temporal específicas, por lo que es recomendable especificarlas en el conjunto de datos.
API : CSV
REST
Para crear un conjunto de datos, usa el método datasets.create.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
-
LOCATION: región en la que se almacenará el conjunto de datos. Debe ser una región que admita recursos de conjuntos de datos. Por ejemplo,
us-central1
. - PROJECT: tu ID de proyecto.
- DATASET_NAME: nombre visible del conjunto de datos.
-
METADATA_SCHEMA_URI: el URI del archivo de esquema de tu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: rutas (URIs) a los contenedores de Cloud Storage que contienen los datos de entrenamiento.
Puede haber más de una. Cada URI tiene el siguiente formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: el número de proyecto que se genera automáticamente.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Cuerpo JSON de la solicitud:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Antes de probar este ejemplo, sigue las Node.js instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
API : BigQuery
REST
Para crear un conjunto de datos, usa el método datasets.create.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
-
LOCATION: región en la que se almacenará el conjunto de datos. Debe ser una región que admita recursos de conjuntos de datos. Por ejemplo,
us-central1
. - PROJECT: .
- DATASET_NAME: nombre visible del conjunto de datos.
-
METADATA_SCHEMA_URI: el URI del archivo de esquema de tu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: ruta a la tabla de BigQuery que contiene los datos de entrenamiento. En el formulario:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: el número de proyecto que se genera automáticamente.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Cuerpo JSON de la solicitud:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Antes de probar este ejemplo, sigue las Node.js instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
Obtener el estado de la operación
Algunas solicitudes inician operaciones de larga duración que requieren tiempo para completarse. Estas solicitudes devuelven un nombre de operación que puedes usar para ver el estado de la operación o cancelarla. Vertex AI proporciona métodos auxiliares para hacer llamadas a operaciones de larga duración. Para obtener más información, consulta Trabajar con operaciones de larga duración.