Questa pagina descrive come creare un set di dati e importarvi i dati tabulari. Puoi quindi utilizzare AutoML Tables per addestrare un modello su quel set di dati.
Introduzione
Un set di dati è un oggetto Google Cloud che contiene i dati della tabella di origine, insieme alle informazioni sullo schema che determinano i parametri di addestramento del modello. Il set di dati funge da input per l'addestramento di un modello.
Un progetto può avere più set di dati. Puoi ottenere un elenco dei set di dati disponibili e puoi eliminare i set di dati che non ti servono più.
L'aggiornamento di un set di dati o delle relative informazioni di schema influisce su qualsiasi modello futuro che lo utilizzerà. I modelli che hanno già iniziato l'addestramento non sono interessati.
Prima di iniziare
Prima di poter utilizzare AutoML Tables, devi aver configurato il progetto come descritto in Prima di iniziare. Prima di poter creare un set di dati, è necessario aver creato i dati di addestramento come descritto in Preparazione dei dati di addestramento.
Creazione di un set di dati
Console
Visita la pagina AutoML Tables nella console Google Cloud per iniziare il processo di creazione del set di dati.
Seleziona Set di dati, quindi Nuovo set di dati.
Inserisci il nome del set di dati e specifica la regione in cui verrà creato.
Per ulteriori informazioni, consulta la sezione Località.
Fai clic su Crea set di dati.
Viene visualizzata la scheda Importa. Ora puoi importare i tuoi dati.
REST
Per creare un set di dati, utilizza il metodo datasets.create.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione dell'UE. - project-id: l'ID del tuo progetto Google Cloud.
- location: la località della risorsa:
us-central1
per tutto il mondo oeu
per l'Unione europea. - dataset-display-name: il nome visualizzato del set di dati.
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Corpo JSON della richiesta:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Salva l'name
del nuovo set di dati (dalla risposta) per utilizzarlo con altre operazioni, come l'importazione di elementi nel set di dati e l'addestramento di un modello.
Ora puoi importare i tuoi dati.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Python
La libreria client per AutoML Tables include ulteriori metodi Python che semplificano l'utilizzo dell'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. I nomi dei set di dati e dei modelli devono essere univoci. Per maggiori informazioni, consulta la sezione Riferimento cliente.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Importazione di dati in un set di dati
Non puoi importare dati in un set di dati che contiene già dati. Devi prima creare un nuovo set di dati.
Console
Se necessario, seleziona il set di dati dall'elenco nella pagina Set di dati per aprire la relativa scheda Importa.
Scegli l'origine di importazione dei dati: BigQuery, Cloud Storage o il tuo computer locale. Fornisci le informazioni richieste.
Se carichi i file CSV dal computer locale, devi fornire un bucket Cloud Storage. I file vengono caricati nel bucket prima di essere importati in AutoML Tables. I file rimangono al suo interno dopo l'importazione dei dati, a meno che non li rimuovi.
Il bucket deve trovarsi nella stessa località del set di dati. Ulteriori informazioni
Fai clic su Importa per avviare il processo di importazione.
Al termine del processo di importazione, viene visualizzata la scheda Addestra ed è tutto pronto per addestrare il modello.
REST
Importa i dati utilizzando il metodo datasets.importData.
Assicurati che l'origine di importazione sia conforme ai requisiti descritti in Preparare l'origine di importazione.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione dell'UE. - project-id: l'ID del tuo progetto Google Cloud.
- location: la località della risorsa:
us-central1
per tutto il mondo oeu
per l'Unione europea. - dataset-id: l'ID del set di dati. Ad esempio,
TBL6543
. - input-config: informazioni sulla posizione dell'origine dati:
- Per BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId } }"
- Per Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Corpo JSON della richiesta:
{ "inputConfig": input-config, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
L'importazione di dati in un set di dati è un'operazione a lunga esecuzione. Puoi eseguire il polling per verificare lo stato dell'operazione o attendere il suo ritorno. Ulteriori informazioni
Al termine del processo di importazione, potrai addestrare il modello.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Python
La libreria client per AutoML Tables include ulteriori metodi Python che semplificano l'utilizzo dell'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. I nomi dei set di dati e dei modelli devono essere univoci. Per maggiori informazioni, consulta la sezione Riferimento cliente.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Ulteriori informazioni
Passaggi successivi
- Addestra il modello.
- Gestisci i tuoi set di dati.
- Scopri di più sull'utilizzo delle operazioni a lunga esecuzione.