Questa versione precedente di AI Platform Training è ritirata e non sarà più disponibile su Google Cloud dopo il 31 gennaio 2025. Esegui la migrazione delle tue risorse all'addestramento personalizzato di Vertex AI per accedere a nuove funzionalità di machine learning non disponibili nella piattaforma AI.

Questa pagina è stata tradotta dall'API Cloud Translation.

Introduzione all'algoritmo XGBoost integrato

Con gli algoritmi integrati in AI Platform Training, puoi inviare i tuoi dati di addestramento, selezionare un algoritmo e lasciare che AI Platform Training gestisca la preelaborazione e l'addestramento per te, senza scrivere codice per un'applicazione di addestramento.

Panoramica

In questo tutorial, addestri un modello XGBoost senza scrivere alcun codice. Invii il set di dati Census Income ad AI Platform Training per il pretrattamento e l'addestramento, quindi esegui il deployment del modello su AI Platform Training per ottenere le previsioni. Il modello risultante prevede la probabilità che il reddito annuo di un individuo sia superiore a 50.000 $.

Prima di iniziare

Per completare questo tutorial sulla riga di comando, utilizza Cloud Shell o qualsiasi ambiente in cui è installato Google Cloud CLI.

Completa i seguenti passaggi per configurare un account Google Cloud, abilitare le API richieste, e installare e attivare la CLI Google Cloud:

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction and Compute Engine APIs.

Enable the APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction and Compute Engine APIs.

Enable the APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Configurazione

Per utilizzare gli algoritmi tabulari integrati, devi rimuovere la riga di intestazione dal file CSV e spostare i valori target nella prima colonna. Abbiamo modificato il set di dati originale del censimento per utilizzarlo con questo tutorial e l'abbiamo ospitato in un bucket Cloud Storage pubblico, gs://cloud-samples-data/ai-platform/census/algorithms/data/.

Console

Prima di avviare il job di addestramento, devi copiare i dati dal nostro bucket Cloud Storage pubblico al tuo bucket Cloud Storage.

Copia i dati di esempio nel bucket Cloud Storage

Nota: è più facile eseguire questo passaggio dalla riga di comando. Per ulteriori istruzioni, consulta la scheda gcloud.

Innanzitutto, scarica i dati di addestramento e test dal nostro pubblico bucket Cloud Storage.
1. Vai al nostro bucket Cloud Storage pubblico:
  
  Ottieni i dati di esempio
2. Scarica sia test.csv che train.csv:
  1. Fai clic sul nome del file.
  2. Nella pagina Dettagli oggetto, fai clic su Scarica. Questi file vengono scaricati nel tuo ambiente locale come ai-platform_census_algorithms_data_test.csv e ai-platform_census_algorithms_data_train.csv rispettivamente.
Poi carica i dati di addestramento e test nel tuo bucket Cloud Storage.
1. Vai alla pagina Browser per il tuo bucket Cloud Storage. Seleziona il progetto dall'elenco a discesa Seleziona un progetto o apri una nuova scheda:
  
  Pagina Browser Cloud Storage
2. Fai clic sul nome del bucket che vuoi utilizzare o creane uno nuovo se non ne hai uno. Se crei un nuovo bucket, assicurati che sia un bucket regionale e seleziona la stessa regione in cui stai eseguendo il job di addestramento di AI Platform Training.
3. (Facoltativo) Fai clic su Crea cartella per creare una cartella per i file che carichi. Inserisci un nome per la cartella (ad es. "data") e fai clic su Crea. Poi, vai alla nuova cartella facendo clic sul nome della cartella.
4. Fai clic su Carica file per caricare i file di addestramento e di test ai-platform_census_algorithms_data_train.csv e ai-platform_census_algorithms_data_test.csv nel bucket.

Ora che i dati sono stati copiati nel bucket, puoi avviare un job di addestramento selezionando il tipo di algoritmo che vuoi utilizzare.

Seleziona l'algoritmo

Vai alla pagina Job di addestramento della piattaforma AI nella console Google Cloud:

Pagina Lavori di AI Platform Training
Fai clic sul pulsante Nuovo job di addestramento. Dalle opzioni visualizzate di seguito, fai clic su Addestramento con algoritmi integrati. Viene visualizzata la pagina Crea un nuovo job di addestramento.
La creazione del job di addestramento è suddivisa in quattro passaggi. Il primo passaggio è Algoritmo di addestramento. Seleziona XGBoost e fai clic su Avanti.

gcloud

Configura le variabili di ambiente per l'ID progetto, il bucket Cloud Storage, il percorso Cloud Storage per i dati di addestramento e la selezione dell'algoritmo.

Gli algoritmi integrati di AI Platform Training si trovano in container Docker ospitati in Container Registry.

PROJECT_ID=YOUR_PROJECT_ID
BUCKET_NAME=YOUR_BUCKET_NAME
REGION="us-central1"
gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Copy the training data into your Cloud Storage bucket, and set the path
# to your copy of the training data.
TRAINING_DATA_SOURCE=gs://cloud-samples-data/ai-platform/census/algorithms/data/train.csv
TRAINING_DATA_PATH=gs://$BUCKET_NAME/algorithms-demo/data/train.csv
gcloud storage cp $TRAINING_DATA_SOURCE $TRAINING_DATA_PATH

# Specify the Docker container URI specific to the algorithm.
IMAGE_URI="gcr.io/cloud-ml-algos/boosted_trees:latest"

Invia un job di addestramento

Per inviare un job, devi specificare alcuni argomenti di addestramento di base e alcuni argomenti di base correlati all'algoritmo XGBoost.

Argomenti generali per il job di addestramento:

Argomenti dei job di addestramento
Argomento	Descrizione
`job-id`	ID univoco per il job di addestramento. Puoi utilizzarlo per trovare i log relativi allo stato del job di addestramento dopo averlo inviato.
`job-dir`	Percorso di Cloud Storage in cui AI Platform Training salva i file di addestramento dopo aver completato un job di addestramento riuscito.
`scale-tier`	Specifica i tipi di macchine per l'addestramento. Utilizza `BASIC` per selezionare una configurazione di una sola macchina.
`master-image-uri`	URI di Container Registry utilizzato per specificare il container Docker da usare per il job di addestramento. Utilizza il contenitore per l'algoritmo XGBoost integrato definito in precedenza come `IMAGE_URI`.
`region`	Specifica la regione disponibile in cui eseguire il job di addestramento. Per questo tutorial, puoi utilizzare la regione `us-central1`.

Argomenti specifici per l'algoritmo XGBoost integrato:

Argomenti degli algoritmi
Argomento	Descrizione
`preprocess`	Argomento booleano che indica se AI Platform Training deve pre-elaborare o meno i dati.
`objective`	Indica l'attività di apprendimento e l'obiettivo di apprendimento corrispondente. In questo esempio, "binary:logistic".
`training_data_path`	Posizione Cloud Storage dei dati di addestramento, che devono essere un file CSV.

Per un elenco dettagliato di tutti gli altri flag dell'algoritmo XGBoost, consulta il riferimento XGBoost integrato.

Console

Lascia selezionata l'opzione Abilita pre-elaborazione automatica dei dati.
In Percorso dei dati di addestramento, fai clic su Sfoglia. Nel riquadro a destra, fai clic sul nome del bucket in cui hai caricato i dati di addestramento e vai al file ai-platform_census_algorithms_data_train.csv.
Lascia i campi per i dati di convalida e i dati di test con le impostazioni predefinite.
In Directory di output, inserisci il percorso del tuo bucket Cloud Storage in cui vuoi che AI Platform Training archivi gli output del tuo job di addestramento. Puoi inserire direttamente il percorso del bucket Cloud Storage oppure fare clic sul pulsante Sfoglia per selezionarlo.

Per mantenere tutto in ordine, crea una nuova directory all'interno del tuo bucket Cloud Storage per questo job di addestramento. Puoi farlo nel riquadro Sfoglia.

Fai clic su Avanti.
Per Obiettivo, seleziona "binary:logistic", che indica un compito di apprendimento di tipo binario e uno scopo di regressione logistica.
Per Tipo di modello, seleziona Classificazione.
Lascia invariate le impostazioni predefinite di tutti gli altri campi e fai clic su Avanti.
Nella pagina Impostazioni job:
1. Inserisci un ID job univoco (ad esempio "xgboost_example").
2. Inserisci una regione disponibile (ad esempio "us-central1").
3. Seleziona "BASE" per il livello della scala.
Fai clic su Fine per inviare il job di addestramento.

gcloud

Configura tutti gli argomenti per il job di addestramento e l'algoritmo, prima di utilizzare gcloud per inviare il job:

DATASET_NAME="census"
ALGORITHM="xgboost"
MODEL_TYPE="classification"
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"

# Give a unique name to your training job.
DATE="$(date '+%Y%m%d_%H%M%S')"
JOB_ID="${MODEL_NAME}_${DATE}"

# Make sure you have access to this Cloud Storage bucket.
JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"

Invia il job:

gcloud ai-platform jobs submit training $JOB_ID \
  --master-image-uri=$IMAGE_URI --scale-tier=BASIC --job-dir=$JOB_DIR \
  -- \
  --preprocess --objective=binary:logistic \
  --training_data_path=$TRAINING_DATA_PATH

Dopo che il job è stato inviato correttamente, puoi visualizzare i log utilizzando i seguenti comandi gcloud:
```
gcloud ai-platform jobs describe $JOB_ID
gcloud ai-platform jobs stream-logs $JOB_ID
```
Nota: il completamento del job di addestramento può richiedere diversi minuti. Puoi confermare che il job di addestramento è stato completato correttamente quando visualizzi un log che indica "addestramento XGBoost completato".

Informazioni sulla directory dei job

Al termine di un job di addestramento, AI Platform Training crea un modello addestrato nel bucket Cloud Storage, insieme ad alcuni altri gli artefatti. All'interno di JOB_DIR puoi trovare la seguente struttura di directory:

model/
- model.pkl
- deployment_config.yaml
artifacts/
- instance_generator.py
- metadata.json
processed_data/
- training.csv
- validation.csv
- test.csv

Verifica che la struttura della directory in JOB_DIR corrisponda a:

gcloud storage ls $JOB_DIR/* --all-versions

Esegui il deployment del modello addestrato

AI Platform Prediction organizza i modelli addestrati utilizzando le risorse model e version. Un modello di previsione di AI Platform è un contenitore per le versioni del tuo modello di machine learning.

Per eseguire il deployment di un modello, crea una risorsa modello in AI Platform Prediction, crea una versione del modello e poi utilizza il modello e la versione per richiedere le previsioni online.

Scopri di più su come eseguire il deployment dei modelli in AI Platform Prediction.

Console

Nella pagina Job puoi trovare un elenco di tutti i tuoi job di addestramento. Fai clic sul nome del job di addestramento che hai appena inviato ("xgboost_example" o il nome del job che hai utilizzato).
Nella pagina Dettagli job, puoi visualizzare l'avanzamento generale del job o fare clic su Visualizza log per una visualizzazione più dettagliata dell'avanzamento.
Se il job ha esito positivo, nella parte superiore viene visualizzato il pulsante Esegui il deployment del modello. Fai clic su Esegui il deployment del modello.
Seleziona "Esegui il deployment come nuovo modello" e inserisci un nome del modello, ad esempio "xgboost_model". Poi, fai clic su Conferma.
Nella pagina Crea versione, inserisci un nome per la versione, ad esempio "v1", e lascia invariate le impostazioni predefinite di tutti gli altri campi. Fai clic su Salva.
Nella pagina Dettagli modello viene visualizzato il nome della versione. La creazione della versione richiede alcuni minuti. Quando la versione è pronta, accanto al nome viene visualizzata un'icona con un segno di spunta.
Fai clic sul nome della versione ("v1") per accedere alla pagina Dettagli della versione. Nel passaggio successivo di questo tutorial, invia una richiesta di previsione

gcloud

Il processo di addestramento con l'algoritmo XGBoost integrato produce un file, deployment_config.yaml, che semplifica il deployment del modello su AI Platform Prediction per le previsioni.

Copia il file nella tua directory locale e visualizzane i contenuti:

gcloud storage cp $JOB_DIR/model/deployment_config.yaml .
cat deployment_config.yaml

Il file deployment_config.yaml dovrebbe avere il seguente aspetto:

deploymentUri: gs://YOUR_BUCKET_NAME/algorithms_training/census_xgboost_classification/20190227060114/model
framework: XGBOOST
labels:
  job_id: census_xgboost_classification_20190227060114
  error_percentage: '14'
runtimeVersion: '0.81'
pythonVersion: '2.7'

Crea il modello e la versione in AI Platform Training:

MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"
gcloud ai-platform models create $MODEL_NAME --regions $REGION

# Create a model and a version using the file above.
VERSION_NAME="v_${DATE}"

gcloud ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --config deployment_config.yaml

La creazione della versione richiede alcuni minuti.

Ottenere previsioni online

Quando richiedi le previsioni, devi assicurarti che i dati di input siano formattati nello stesso modo dei dati di addestramento. Prima dell'addestramento, AI Platform Training esegue la preelaborazione dei dati trasformandoli nel corpus mostrato in metadata.json.

Puoi utilizzare instance_generator.py per applicare alle istanze di input le stesse trasformazioni di preelaborazione applicate da AI Platform Training ai dati di addestramento. Questo file legge le informazioni di mappatura memorizzate nel metadata.json file. Puoi anche utilizzare la funzione transform_string_instance nel modulo per trasformare la stringa non elaborata in un formato accettato dal modello.

Scarica i file degli elementi di addestramento e rivedi metadata.json:

gcloud storage cp $JOB_DIR/artifacts/* .

# Let's look at the metadata.json file
head metadata.json

Utilizza instance_generator.py per preparare l'input di previsione per un'istanza di dati:

 # ground truth is >50K
RAW_DATA_POINT="44, Private, 160323, Some-college, 10, Married-civ-spouse, Machine-op-inspct, Husband, Black, Male, 7688, 0, 40, United-States"

 # Now let's create a JSON prediction request
python instance_generator.py --raw_data_string="${RAW_DATA_POINT}" > sample_input.json

# Let's look at the prediction request file.
cat sample_input.json

Invia la richiesta di previsione:

gcloud ai-platform predict \
  --model $MODEL_NAME \
  --version $VERSION_NAME \
  --json-instances sample_input.json

La previsione risultante deve essere un numero superiore a 0, 5,il che indica che il soggetto guadagna molto probabilmente uno stipendio superiore a 50.000 $.

Informazioni sui dati

Il set di dati Census Income utilizzato da questo esempio per l'addestramento è ospitato dal UC Irvine Machine Learning Repository.

Dati del censimento forniti da: Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.

Passaggi successivi

Scopri di più sull'utilizzo dell'algoritmo XGBoost integrato.

Avanti

Addestramento con l'impiego dell'algoritmo XGBoost integrato