Questa pagina descrive come creare un set di dati e importare al suo interno i dati tabulari. Puoi quindi utilizzare AutoML Tables per addestrare un modello su quel set di dati.
Introduzione
Un set di dati è un oggetto Google Cloud che contiene i dati della tabella di origine insieme alle informazioni dello schema che determinano i parametri di addestramento del modello. Il set di dati funge da input per l'addestramento di un modello.
Un progetto può avere più set di dati. Puoi ottenere un elenco dei set di dati disponibili ed eliminare i set di dati che non ti servono più.
L'aggiornamento di un set di dati o delle relative informazioni di schema influisce su qualsiasi modello futuro che utilizza quel set di dati. I modelli già in fase di addestramento non sono interessati.
Prima di iniziare
Prima di poter utilizzare AutoML Tables, devi aver configurato il tuo progetto come descritto in Prima di iniziare. Prima di poter creare un set di dati, devi aver creato i dati di addestramento come descritto in Preparazione dei dati di addestramento.
Creazione di un set di dati
Console
Visita la pagina AutoML Tables nella console Google Cloud per iniziare il processo di creazione del set di dati.
Seleziona Set di dati e poi Nuovo set di dati.
Inserisci il nome del set di dati e specifica la regione in cui verrà creato.
Per ulteriori informazioni, vedi Località.
Fai clic su Crea set di dati.
Viene visualizzata la scheda Importa. Ora puoi importare i tuoi dati.
REST
Per creare un set di dati, utilizza il metodo datasets.create.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione dell'UE. - project-id: il tuo ID progetto Google Cloud.
- location: la località per la risorsa:
us-central1
per Globale oeu
per l'Unione Europea. - dataset-display-name: il nome visualizzato del set di dati.
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Corpo JSON della richiesta:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Salva il name
del nuovo set di dati (dalla risposta) per utilizzarlo con altre operazioni, come l'importazione di elementi nel set di dati e l'addestramento di un modello.
Ora puoi importare i tuoi dati.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Python
La libreria client per AutoML Tables include metodi Python aggiuntivi che semplificano l'utilizzo dell'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. I nomi dei set di dati e dei modelli devono essere univoci. Per maggiori informazioni, consulta la documentazione di riferimento per i client.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Importazione di dati in un set di dati
Non puoi importare dati in un set di dati che li contiene già. Devi prima creare un nuovo set di dati.
Console
Se necessario, seleziona il set di dati dall'elenco nella pagina Set di dati per aprire la relativa scheda Importa.
Scegli l'origine di importazione per i tuoi dati: BigQuery, Cloud Storage o il tuo computer locale. Fornisci le informazioni richieste.
Se carichi i file CSV dal computer locale, devi fornire un bucket Cloud Storage. I file vengono caricati nel bucket prima di essere importati in AutoML Tables. I file rimangono al suo interno dopo l'importazione dei dati, a meno che non li rimuovi.
Il bucket deve trovarsi nella stessa località del set di dati. Scopri di più.
Fai clic su Importa per avviare la procedura di importazione.
Al termine del processo di importazione, viene visualizzata la scheda Addestra e puoi addestrare il modello.
REST
Importa i dati utilizzando il metodo datasets.importData.
Assicurati che l'origine di importazione sia conforme ai requisiti descritti in Preparazione dell'origine di importazione.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione dell'UE. - project-id: il tuo ID progetto Google Cloud.
- location: la località per la risorsa:
us-central1
per Globale oeu
per l'Unione Europea. - dataset-id: l'ID del set di dati. Ad esempio,
TBL6543
. - input-config: informazioni sulla posizione dell'origine dati:
- Per BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId } }"
- Per Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Corpo JSON della richiesta:
{ "inputConfig": input-config, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
L'importazione di dati in un set di dati è un'operazione a lunga esecuzione. Puoi eseguire il polling dello stato dell'operazione o attendere il ritorno dell'operazione. Scopri di più.
Al termine del processo di importazione, sei pronto per addestrare il modello.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Python
La libreria client per AutoML Tables include metodi Python aggiuntivi che semplificano l'utilizzo dell'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. I nomi dei set di dati e dei modelli devono essere univoci. Per maggiori informazioni, consulta la documentazione di riferimento per i client.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Passaggi successivi
- Addestra il modello.
- Gestisci i tuoi set di dati.
- Scopri di più sull'utilizzo delle operazioni a lunga esecuzione.