Questa pagina mostra come creare un set di dati Vertex AI dai tuoi dati tabulari per iniziare ad addestrare i modelli di previsione. Puoi creare un set di dati utilizzando la console Google Cloud o l'API Vertex AI.
Prima di iniziare
Prima di poter creare un set di dati Vertex AI dai dati tabulari, devi preparare i dati di addestramento.
Crea un set di dati vuoto e associa i dati preparati
Per creare un modello di machine learning per le previsioni, devi prima disporre di una raccolta rappresentativa di dati per l'addestramento. Utilizza la console Google Cloud o l'API per associare i dati preparati al set di dati.
Quando crei un set di dati, lo associ anche alla relativa origine dati. I dati di addestramento possono essere un file CSV in Cloud Storage o una tabella in BigQuery. Se l'origine dati risiede in un progetto diverso, assicurati di configurare le autorizzazioni richieste.
Console Google Cloud
- Nella sezione Vertex AI della console Google Cloud, vai alla pagina Set di dati.
- Fai clic su Crea per aprire la pagina dei dettagli per la creazione del set di dati.
- Modifica il campo Nome set di dati per creare un nome visualizzato descrittivo per il set di dati.
- Seleziona la scheda Tabulare.
- Seleziona l'obiettivo Previsione.
- Seleziona una regione dall'elenco a discesa Regione.
- Fai clic su Crea per creare il set di dati vuoto e vai alla scheda Origine.
- Scegli una delle seguenti opzioni, a seconda dell'origine dati.
File CSV sul computer
- Fai clic su Carica file CSV dal tuo computer.
- Fai clic su Seleziona file e scegli tutti i file locali da caricare in un bucket Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, inserisci il percorso del bucket Cloud Storage o fai clic su Sfoglia per scegliere una posizione del bucket.
File CSV in Cloud Storage
- Fai clic su Seleziona file CSV da Cloud Storage.
- Nella sezione Seleziona file CSV da Cloud Storage, inserisci il percorso del bucket Cloud Storage o fai clic su Sfoglia per scegliere la posizione dei file CSV.
Una tabella o una visualizzazione in BigQuery
- Fai clic su Seleziona una tabella o una visualizzazione da BigQuery.
- Inserisci gli ID progetto, set di dati e tabella per il file di input.
- Fai clic su Continua.
L'origine dati è associata al set di dati.
-
Nella scheda Analizza, specifica la colonna Timestamp e la colonna
Identificatore serie
per questo set di dati.
Puoi anche specificare queste colonne quando addestri il modello, ma in genere una previsione del set di dati ha ora specifiche Le colonne degli identificatori di serie temporali, quindi è una best practice specificarle nel set di dati.
API: CSV
REST
Devi utilizzare il metodo datasets.create per creare un del set di dati.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
-
LOCATION: regione in cui verrà archiviato il set di dati. Deve essere una
regione che supporta
le risorse dei set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto.
- DATASET_NAME: nome visualizzato per il set di dati.
-
METADATA_SCHEMA_URI: l'URI del file dello schema per il tuo scopo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: percorsi (URI) dei bucket Cloud Storage contenenti i dati di addestramento.
Può essercene più di uno. Ogni URI ha il seguente formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: il numero del progetto generato automaticamente.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni per la configurazione di Java nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Java di Vertex AI.
Per eseguire l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Node.js di Vertex AI.
Per eseguire l'autenticazione su Vertex AI, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per ulteriori informazioni, consulta documentazione di riferimento dell'API Python.
API: BigQuery
REST
Puoi utilizzare datasets.create per creare un set di dati.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
-
LOCATION: regione in cui verrà archiviato il set di dati. Deve essere una
regione che supporta
le risorse dei set di dati. Ad esempio:
us-central1
. - PROJECT: il tuo ID progetto.
- DATASET_NAME: nome visualizzato per il set di dati.
-
METADATA_SCHEMA_URI: l'URI del file dello schema per il tuo scopo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: percorso alla tabella BigQuery contenente i dati di addestramento. Nel modulo:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: il numero del progetto generato automaticamente.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione Java riportate nella guida rapida all'utilizzo delle librerie client di Vertex AI. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Java di Vertex AI.
Per autenticarti in Vertex AI, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nel Guida rapida di Vertex AI con librerie client. Per ulteriori informazioni, consulta API Node.js Vertex AI documentazione di riferimento.
Per autenticarti in Vertex AI, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Ottieni stato dell'operazione
Alcune richieste avviano operazioni a lunga esecuzione il cui completamento richiede tempo. Queste richieste restituiscono un nome dell'operazione, che puoi utilizzare per visualizzarne lo stato o annullarla. Vertex AI offre metodi helper per effettuare chiamate a operazioni a lunga esecuzione. Per ulteriori informazioni, consulta la sezione Utilizzo di modelli operazioni.