Questa pagina descrive come creare un set di dati e importare i dati tabulari in li annotino. Puoi quindi utilizzare AutoML Tables per addestrare un modello su quel set di dati.
Introduzione
Un set di dati è un oggetto Google Cloud contenente i dati della tabella di origine, insieme alle informazioni sullo schema che determinano i parametri di addestramento del modello. Il set di dati funge da input per l'addestramento di un modello.
Un progetto può avere più set di dati. Tu ottenere un elenco dei set di dati disponibili e elimina i set di dati che non ti servono più.
L'aggiornamento di un set di dati o delle informazioni sullo schema influisce su qualsiasi modello futuro che utilizza quel set di dati. I modelli che hanno già iniziato l'addestramento non sono interessati.
Prima di iniziare
Prima di poter utilizzare AutoML Tables, devi aver configurato il progetto come descritto in Prima di iniziare. Prima di poter creare un set di dati, devi aver creato i dati di addestramento come descritto in Preparare i dati di addestramento.
Creazione di un set di dati
Console
Visita la pagina AutoML Tables nella console Google Cloud per iniziare il processo di creazione del set di dati.
Seleziona Set di dati, quindi Nuovo set di dati.
Inserisci il nome del set di dati e specifica la Regione in cui .
Per ulteriori informazioni, consulta la sezione Località.
Fai clic su Crea set di dati.
Viene visualizzata la scheda Importa. Ora puoi importare i tuoi dati.
REST
Per creare un set di dati, utilizza datasets.create .
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione UE. - project-id: l'ID del tuo progetto Google Cloud.
- location: la località della risorsa:
us-central1
per tutto il mondo oeu
per l'Unione europea. - dataset-display-name: il nome visualizzato del set di dati.
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Corpo JSON della richiesta:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Salva il valore name
del nuovo set di dati (dalla risposta) per utilizzarlo con altri
operazioni come l'importazione di elementi nel set di dati e l'addestramento di un modello.
Ora puoi importare i tuoi dati.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Python
La libreria client per AutoML Tables include ulteriori metodi Python che semplificano l'utilizzo l'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. Il tuo i nomi dei set di dati e dei modelli devono essere univoci. Per ulteriori informazioni, consulta Riferimento del cliente.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Importazione di dati in un set di dati
Non puoi importare dati in un set di dati che contiene già dati. Devi crea innanzitutto un nuovo set di dati.
Console
Se necessario, seleziona il set di dati dall'elenco nella pagina Set di dati per apri la scheda Importa.
Scegli l'origine di importazione per i tuoi dati: BigQuery, Cloud Storage o il tuo computer locale. Fornisci il parametro le informazioni richieste.
Se carichi i file CSV dal computer locale, devi fornire nel bucket Cloud Storage. I tuoi file vengono caricati nel bucket prima del giorno e vengono importati in AutoML Tables. I file rimangono lì dopo l'importazione dei dati, a meno che non li rimuovi.
Il bucket deve trovarsi nella stessa località del set di dati. Scopri di più.
Fai clic su Importa per avviare il processo di importazione.
Al termine del processo di importazione, viene visualizzata la scheda Addestra, e ora è tutto pronto per addestrare il modello.
REST
Importa i dati utilizzando il datasets.importData.
Assicurati che l'origine di importazione sia conforme ai requisiti descritti in Preparazione dell'origine di importazione.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
endpoint:
automl.googleapis.com
per la località globale eeu-automl.googleapis.com
per la regione UE. - project-id: l'ID del tuo progetto Google Cloud.
- location: la località della risorsa:
us-central1
per tutto il mondo oeu
per l'Unione europea. - dataset-id: l'ID del set di dati. Ad esempio,
TBL6543
. - input-config: informazioni sulla posizione dell'origine dati:
- Per BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId} }"
- Per Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Metodo HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Corpo JSON della richiesta:
{ "inputConfig": input-config, }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
L'importazione di dati in un set di dati è un'operazione a lunga esecuzione. Puoi eseguire il polling per verificare lo stato dell'operazione o attendere che venga eseguita per tornare indietro. Scopri di più.
Al termine del processo di importazione, potrai addestrare il modello.
Java
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Node.js
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Python
La libreria client per AutoML Tables include ulteriori metodi Python che semplificano l'utilizzo l'API AutoML Tables. Questi metodi fanno riferimento a set di dati e modelli per nome anziché per ID. Il tuo i nomi dei set di dati e dei modelli devono essere univoci. Per ulteriori informazioni, consulta Riferimento del cliente.
Se le risorse si trovano nella regione dell'UE, devi impostare esplicitamente l'endpoint. Scopri di più.
Passaggi successivi
- Addestra il modello.
- Gestisci i tuoi set di dati.
- Scopri di più sull'utilizzo delle operazioni a lunga esecuzione.