En esta página se explica cómo crear un conjunto de datos de Vertex AI a partir de datos tabulares para que puedas empezar a entrenar modelos de clasificación y regresión. Puedes crear un conjunto de datos con la Google Cloud consola o con la API de Vertex AI.
Antes de empezar
Antes de crear un conjunto de datos de Vertex AI a partir de tus datos tabulares, prepara los datos. Para obtener información detallada, consulta estos enlaces:
- Preparar datos de entrenamiento tabulares para modelos de clasificación y regresión
- Prácticas recomendadas para crear datos de entrenamiento tabulares
Crear un conjunto de datos vacío y asociar los datos preparados
Para crear un modelo de aprendizaje automático de clasificación o regresión, primero debes tener una colección representativa de datos con la que entrenarlo. Usa la consola deGoogle Cloud o la API para asociar los datos preparados al conjunto de datos. Asociar tus datos te permite hacer modificaciones y empezar a entrenar el modelo.
Google Cloud consola
- En la Google Cloud consola, en la sección Vertex AI, ve a la página Conjuntos de datos.
- Haz clic en Crear para abrir la página de detalles de creación del conjunto de datos.
- Modifique el campo Nombre del conjunto de datos para crear un nombre visible descriptivo para el conjunto de datos.
- Selecciona la pestaña Tabular.
- Selecciona el objetivo Regresión o clasificación.
- Selecciona una región en la lista desplegable Región.
- Si quieres usar claves de cifrado gestionadas por el cliente (CMEK) con tu conjunto de datos, abre Opciones avanzadas y proporciona tu clave. Vista previa
- Haz clic en Crear para crear el conjunto de datos vacío y ve a la pestaña Origen.
- Elige una de las siguientes opciones en función de tu fuente de datos.
Archivos CSV en tu ordenador
- Haz clic en Subir archivos CSV desde tu ordenador.
- Haz clic en Seleccionar archivos y elige todos los archivos locales que quieras subir a un segmento de Cloud Storage.
- En la sección Seleccionar una ruta de Cloud Storage, introduce la ruta del segmento de Cloud Storage o haz clic en Buscar para elegir una ubicación del segmento.
Archivos CSV en Cloud Storage
- Haz clic en Seleccionar archivos CSV de Cloud Storage.
- En la sección Seleccionar archivos CSV de Cloud Storage, introduce la ruta al segmento de Cloud Storage o haz clic en Examinar para elegir la ubicación de los archivos CSV.
Una tabla o una vista de BigQuery
- Haz clic en Selecciona una tabla o vista de BigQuery.
- Introduzca los IDs del proyecto, del conjunto de datos y de la tabla del archivo de entrada.
- Haz clic en Continuar.
La fuente de datos está asociada al conjunto de datos.
API
Cuando crea un conjunto de datos, también lo asocia a su fuente de datos. El código necesario para crear un conjunto de datos depende de si los datos de entrenamiento se encuentran en Cloud Storage o en BigQuery. Si la fuente de datos se encuentra en otro proyecto, asegúrate de configurar los permisos necesarios.Crear un conjunto de datos con datos de Cloud Storage
REST
Para crear un conjunto de datos, usa el método datasets.create.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
-
LOCATION: región en la que se almacenará el conjunto de datos. Debe ser una región que admita recursos de conjuntos de datos. Por ejemplo,
us-central1
. - PROJECT: tu ID de proyecto.
- DATASET_NAME: nombre visible del conjunto de datos.
-
METADATA_SCHEMA_URI: el URI del archivo de esquema de tu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: rutas (URIs) a los contenedores de Cloud Storage que contienen los datos de entrenamiento.
Puede haber más de una. Cada URI tiene el siguiente formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: el número de proyecto que se genera automáticamente.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Cuerpo JSON de la solicitud:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Antes de probar este ejemplo, sigue las Node.js instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
Crear un conjunto de datos con datos en BigQuery
REST
Para crear un conjunto de datos, usa el método datasets.create.Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
-
LOCATION: región en la que se almacenará el conjunto de datos. Debe ser una región que admita recursos de conjuntos de datos. Por ejemplo,
us-central1
. - PROJECT: .
- DATASET_NAME: nombre visible del conjunto de datos.
-
METADATA_SCHEMA_URI: el URI del archivo de esquema de tu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: ruta a la tabla de BigQuery que contiene los datos de entrenamiento. En el formulario:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: el número de proyecto que se genera automáticamente.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Cuerpo JSON de la solicitud:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la siguiente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Antes de probar este ejemplo, sigue las Node.js instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
Obtener el estado de la operación
Algunas solicitudes inician operaciones de larga duración que requieren tiempo para completarse. Estas solicitudes devuelven un nombre de operación que puedes usar para ver el estado de la operación o cancelarla. Vertex AI proporciona métodos auxiliares para hacer llamadas a operaciones de larga duración. Para obtener más información, consulta Trabajar con operaciones de larga duración.