Questa pagina mostra come creare un set di dati Vertex AI a partire dai tuoi dati di testo, in modo da poter iniziare ad addestrare i modelli di analisi del sentiment. Puoi creare un set di dati utilizzando la console Google Cloud o l'API Vertex AI.
Prima di iniziare
Prima di poter creare un set di dati Vertex AI dai tuoi dati di testo, devi preparare i tuoi dati di testo.
Crea un set di dati vuoto e importa o associa i tuoi dati
Console Google Cloud
Utilizza le seguenti istruzioni per creare un set di dati vuoto e importare o associare i tuoi dati.
- Nella sezione Vertex AI della console Google Cloud, vai alla pagina Set di dati.
- Fai clic su Crea per aprire la pagina dei dettagli di creazione del set di dati.
- Modifica il campo Nome set di dati per creare un nome visualizzato del set di dati descrittivo.
- Seleziona la scheda Testo.
- Seleziona Analisi del sentiment.
- Seleziona una regione dall'elenco a discesa Regione.
- Fai clic su Crea per creare il set di dati vuoto e passa alla pagina di importazione dei dati.
- Scegli una delle seguenti opzioni nella sezione Seleziona un metodo di importazione:
Carica dati dal tuo computer
- Nella sezione Seleziona un metodo di importazione, scegli di caricare i dati dal computer.
- Fai clic su Seleziona file e scegli tutti i file locali da caricare in un bucket Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, fai clic su Sfoglia per scegliere il percorso di un bucket Cloud Storage in cui caricare i dati.
Carica un file di importazione dal computer
- Fai clic su Carica un file di importazione dal computer.
- Fai clic su Seleziona file e scegli il file di importazione locale da caricare in un bucket Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, fai clic su Sfoglia per scegliere un percorso del bucket Cloud Storage in cui caricare il file.
Seleziona un file di importazione da Cloud Storage
- Fai clic su Seleziona un file di importazione da Cloud Storage.
- Nella sezione Seleziona un percorso Cloud Storage, fai clic su Sfoglia per scegliere il file di importazione in Cloud Storage.
- Fai clic su Continua.
L'importazione dati può richiedere diverse ore, a seconda delle dimensioni dei dati. Puoi chiudere questa scheda e accedervi di nuovo in seguito. Riceverai un'email al termine dell'importazione dei dati.
API
Per creare un modello di machine learning, devi prima avere una raccolta rappresentativa di dati con cui eseguire l'addestramento. Dopo aver importato i dati, puoi apportare modifiche e avviare l'addestramento del modello.
crea un set di dati
Utilizza i seguenti esempi per creare un set di dati per i tuoi dati.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
-
LOCATION: regione in cui verrà archiviato il set di dati. Deve essere un'area geografica che supporta le risorse del set di dati. Ad esempio,
us-central1
. Consulta l'elenco delle località disponibili. - PROJECT_ID: il tuo ID progetto
- DATASET_NAME: nome del set di dati.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
Corpo JSON della richiesta:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/text_1.0.0.yaml" }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
Dovresti vedere un output simile al seguente. Puoi utilizzare OPERATION_ID nella risposta per ottenere lo stato dell'operazione.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } } }
Terraform
L'esempio seguente utilizza la risorsa Terraform google_vertex_ai_dataset
per creare un set di dati di testo denominato text-dataset
.
Per scoprire come applicare o rimuovere una configurazione Terraform, consulta Comandi Terraform di base.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Node.js Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
L'esempio seguente utilizza l'SDK Vertex AI per Python sia per creare un set di dati sia per importare dati. Se esegui questo codice campione, puoi saltare la sezione Importa dati di questa guida.
Questo esempio specifico importa i dati per la classificazione con etichetta singola. Se il modello ha uno scopo diverso, devi modificare il codice.
Importa dati
Dopo aver creato un set di dati vuoto, puoi importarvi i dati. Se hai utilizzato l'SDK Vertex AI per Python per creare il set di dati, potresti aver già importato i dati al momento della creazione del set di dati. In tal caso, puoi saltare questa sezione.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: regione in cui verrà archiviato il set di dati. Ad esempio,
us-central1
. - PROJECT_ID: il tuo ID progetto.
- DATASET_ID: ID del set di dati.
- IMPORT_FILE_URI: percorso del file CSV o JSON Lines in Cloud Storage in cui sono elencati gli elementi di dati archiviati in Cloud Storage da utilizzare per l'addestramento del modello. Per informazioni sui formati e sulle limitazioni dei file di importazione, consulta la sezione Preparazione dei dati di testo.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
Corpo JSON della richiesta:
{ "import_configs": [ { "gcs_source": { "uris": "IMPORT_FILE_URI" }, "import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml " } ] }
Per inviare la richiesta, scegli una delle seguenti opzioni:
arricciatura
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
Dovresti vedere un output simile al seguente. Puoi utilizzare OPERATION_ID nella risposta per ottenere lo stato dell'operazione.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata", "genericMetadata": { "createTime": "2020-07-08T20:32:02.543801Z", "updateTime": "2020-07-08T20:32:02.543801Z" } } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js riportate nella guida rapida di Vertex AI sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Node.js Vertex AI.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Ottieni stato operazione
Alcune richieste avviano operazioni a lunga esecuzione il cui completamento richiede tempo. Queste richieste restituiscono un nome operazione, che puoi utilizzare per visualizzare lo stato dell'operazione o per annullarla. Vertex AI fornisce metodi helper per effettuare chiamate a operazioni a lunga esecuzione. Per maggiori informazioni, consulta Operazioni a lunga esecuzione.