Questa pagina mostra come creare un set di dati Vertex AI a partire dai tuoi dati tabulari, in modo da poter iniziare ad addestrare i modelli di previsione. Puoi creare un set di dati utilizzando la console Google Cloud o l'API Vertex AI.
Prima di iniziare
Prima di poter creare un set di dati Vertex AI dai tuoi dati tabulari, devi preparare i dati di addestramento.
Crea un set di dati vuoto e associa i dati preparati
Per creare un modello di machine learning per la previsione, devi prima avere una raccolta rappresentativa di dati con cui eseguire l'addestramento. Utilizza la console Google Cloud o l'API per associare i dati preparati nel set di dati.
Quando crei un set di dati, lo associ anche alla relativa origine dati. I dati di addestramento possono essere un file CSV in Cloud Storage o una tabella in BigQuery. Se l'origine dati si trova in un altro progetto, assicurati di configurare le autorizzazioni richieste.
Console Google Cloud
- Nella sezione Vertex AI della console Google Cloud, vai alla pagina Set di dati.
- Fai clic su Crea per aprire la pagina dei dettagli di creazione del set di dati.
- Modifica il campo Nome set di dati per creare un nome visualizzato descrittivo del set di dati.
- Seleziona la scheda Tabulare.
- Seleziona l'obiettivo Previsione.
- Seleziona una regione dall'elenco a discesa Regione.
- Fai clic su Crea per creare il set di dati vuoto e passa alla scheda Origine.
- Scegli una delle seguenti opzioni, in base all'origine dati.
File CSV sul computer
- Fai clic su Carica i file CSV dal computer.
- Fai clic su Seleziona file e scegli tutti i file locali da caricare in un bucket Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, inserisci il percorso del bucket Cloud Storage oppure fai clic su Sfoglia per scegliere una posizione per il bucket.
File CSV in Cloud Storage
- Fai clic su Seleziona file CSV da Cloud Storage.
- Nella sezione Seleziona file CSV da Cloud Storage inserisci il percorso del bucket Cloud Storage oppure fai clic su Sfoglia per scegliere il percorso dei file CSV.
Una tabella o una visualizzazione in BigQuery
- Fai clic su Seleziona una tabella o una visualizzazione da BigQuery.
- Inserisci gli ID progetto, set di dati e tabella per il file di input.
- Fai clic su Continua.
L'origine dati è associata al tuo set di dati.
-
Nella scheda Analizza, specifica la colonna Timestamp e la colonna Identificatore serie per questo set di dati.
Puoi specificare queste colonne anche durante l'addestramento del modello, ma in genere un set di dati di previsione ha colonne di identificatori di tipo Time e Time-series specifiche, perciò è consigliabile specificarle nel set di dati.
API : CSV
REST
Per creare un set di dati, devi utilizzare il metodo datasets.create.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
LOCATION: regione in cui verrà archiviato il set di dati. Deve essere una regione che supporta le risorse del set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto.
- DATASET_NAME: nome visualizzato del set di dati.
-
METADATA_SCHEMA_URI: l'URI del file di schema per il tuo scopo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: percorsi (URI) dei bucket Cloud Storage contenenti i dati di addestramento.
Possono esserci più opzioni. Ogni URI ha il seguente formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Node.js Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
API : BigQuery
REST
Per creare un set di dati, utilizzerai il metodo datasets.create.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
LOCATION: regione in cui verrà archiviato il set di dati. Deve essere una regione che supporta le risorse del set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto.
- DATASET_NAME: nome visualizzato del set di dati.
-
METADATA_SCHEMA_URI: l'URI del file di schema per il tuo scopo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: percorso della tabella BigQuery contenente i dati di addestramento. Nel modulo:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: il numero di progetto generato automaticamente dal progetto.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Node.js Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Ottieni stato operazione
Alcune richieste avviano operazioni a lunga esecuzione il cui completamento richiede tempo. Queste richieste restituiscono un nome operazione, che puoi utilizzare per visualizzare lo stato dell'operazione o per annullarla. Vertex AI fornisce metodi helper per effettuare chiamate a operazioni a lunga esecuzione. Per maggiori informazioni, consulta Operazioni a lunga esecuzione.