Addestramento con scikit-learn su AI Platform Training

Il servizio di addestramento di AI Platform Training gestisce le risorse di calcolo nel cloud per addestrare i tuoi modelli. Questa pagina descrive la procedura per addestrare un modello scikit-learn utilizzando AI Platform Training.

Questo tutorial addestra un semplice modello per prevedere il livello di reddito di una persona in base al set di dati relativo al reddito del Censimento. Creazione di un'applicazione di addestramento in locale, caricamento su Cloud Storage e invio di un job di addestramento. Il servizio di addestramento AI Platform Training scrive l'output nel tuo bucket Cloud Storage e crea log in Logging.

Questi contenuti sono disponibili anche su GitHub come Jupyter Notebook.

Come addestrare il modello su AI Platform Training

Puoi addestrare il tuo modello su AI Platform Training in tre passaggi:

  • Crea il file del modello Python
    • Aggiungi il codice per scaricare i dati da Cloud Storage in modo che l'AI Platform Training possa utilizzarli
    • Aggiungi il codice per esportare e salvare il modello in Cloud Storage al termine dell'addestramento del modello con AI Platform Training
  • Preparare un pacchetto di applicazioni di addestramento
  • Invia il job di addestramento

Prima di iniziare

Completa i seguenti passaggi per configurare un account Google Cloud, attivare l'API AI Platform Training e installare e attivare l'Cloud SDK.

Configura il progetto Google Cloud

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the AI Platform Training & Prediction and Compute Engine APIs.

    Enable the APIs

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the AI Platform Training & Prediction and Compute Engine APIs.

    Enable the APIs

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init

Configura l'ambiente

Scegli una delle opzioni riportate di seguito per configurare l'ambiente localmente su macOS o in un ambiente remoto su Cloud Shell.

Per gli utenti di macOS, ti consigliamo di configurare l'ambiente utilizzando la scheda MACOS di seguito. Cloud Shell, visualizzato nella scheda CLOUD SHELL, è disponibile su macOS, Linux e Windows. Cloud Shell offre un modo rapido per provare AI Platform Training, ma non è adatto per lo sviluppo continuo.

macOS

  1. Verifica l'installazione di Python
    Verifica di avere installato Python e, se necessario, installalo.

    python -V
  2. Verifica l'installazione di pip
    pip è il gestore dei pacchetti di Python, incluso nelle versioni attuali di Python. Per verificare se pip è già installato, esegui pip --version. In caso contrario, scopri come installare pip.

    Puoi eseguire l'upgrade di pip utilizzando il seguente comando:

    pip install -U pip

    Per ulteriori dettagli, consulta la documentazione di pip.

  3. Installa virtualenv
    virtualenv è uno strumento per creare ambienti Python isolati. Per verificare se hai già installato virtualenv, esegui virtualenv --version. In caso contrario, installa virtualenv:

    pip install --user --upgrade virtualenv

    Per creare un ambiente di sviluppo isolato per questa guida, crea un nuovo ambiente virtuale in virtualenv. Ad esempio, il seguente comando attiva un ambiente denominato aip-env:

    virtualenv aip-env
    source aip-env/bin/activate
  4. Ai fini di questo tutorial, esegui il resto dei comandi all'interno del tuo ambiente virtuale.

    Consulta ulteriori informazioni sull'utilizzo di virtualenv. Per uscire da virtualenv, esegui deactivate.

Cloud Shell

  1. Apri la console Google Cloud .

    Console

  2. Fai clic sul pulsante Attiva Google Cloud Shell nella parte superiore della finestra della console.

    Attiva Google Cloud Shell

    All'interno di un nuovo frame nella parte inferiore della console si apre una sessione di Cloud Shell e viene visualizzato un prompt della riga di comando. Potrebbe essere necessario attendere qualche secondo per l'inizializzazione della sessione della shell.

    Sessione di Cloud Shell

    La sessione Cloud Shell è pronta per l'uso.

  3. Configura lo strumento a riga di comando gcloud in modo da utilizzare il progetto selezionato.

    gcloud config set project [selected-project-id]

    dove [selected-project-id] è l'ID progetto. (Ometti le parentesi graffe di chiusura.)

Installare framework

macOS

Nell'ambiente virtuale, esegui il seguente comando per installare le versioni di scikit-learn e pandas utilizzate in AI Platform Training con versione di runtime 2.11:

(aip-env)$ pip install scikit-learn==1.0.2 pandas==1.3.5

Fornendo i numeri di versione nel comando precedente, ti assicuri che le dipendenze nel tuo ambiente virtuale corrispondano a quelle nella versione di runtime. In questo modo, puoi evitare comportamenti imprevisti quando il codice viene eseguito su AI Platform Training.

Per ulteriori dettagli, opzioni di installazione e informazioni sulla risoluzione dei problemi, consulta le istruzioni di installazione per ciascun framework:

Cloud Shell

Esegui il seguente comando per installare scikit-learn e pandas:

pip install --user scikit-learn pandas

Per ulteriori dettagli, opzioni di installazione e informazioni sulla risoluzione dei problemi, consulta le istruzioni di installazione per ciascun framework:

Configura il bucket Cloud Storage

Ti servirà un bucket Cloud Storage per archiviare il codice di addestramento e le dipendenze. Ai fini di questo tutorial, è più semplice utilizzare un bucket Cloud Storage dedicato nello stesso progetto che utilizzi per AI Platform Training.

Se utilizzi un bucket in un progetto diverso, devi assicurarti che l'account di servizio AI Platform Training possa accedere al codice di addestramento e alle dipendenze in Cloud Storage. Senza le autorizzazioni appropriate, il job di addestramento non va a buon fine. Scopri come concedere le autorizzazioni per lo spazio di archiviazione.

Assicurati di utilizzare o configurare un bucket nella stessa regione in cui esegui i job di addestramento. Consulta le regioni disponibili per i servizi AI Platform Training.

Questa sezione spiega come creare un nuovo bucket. Puoi utilizzare un bucket esistente, ma deve trovarsi nella stessa regione in cui prevedi di eseguire i job di AI Platform. Inoltre, se non fa parte del progetto che utilizzi per eseguire AI Platform Training, devi esplicitamente concedere accesso agli account di servizio AI Platform Training.

  1. Specifica un nome per il nuovo bucket. Il nome deve essere univoco in tutti i bucket di Cloud Storage.

    BUCKET_NAME="YOUR_BUCKET_NAME"

    Ad esempio, utilizza il nome del progetto con -aiplatform aggiunto:

    PROJECT_ID=$(gcloud config list project --format "value(core.project)")
    BUCKET_NAME=${PROJECT_ID}-aiplatform
  2. Controlla il nome del bucket che hai creato.

    echo $BUCKET_NAME
  3. Seleziona una regione per il bucket e imposta una variabile di ambiente REGION.

    Utilizza la stessa regione in cui prevedi di eseguire i job di AI Platform Training. Consulta le regioni disponibili per i servizi AI Platform Training.

    Ad esempio, il seguente codice crea REGION e lo imposta su us-central1:

    REGION=us-central1
  4. Crea il nuovo bucket:

    gcloud storage buckets create gs://$BUCKET_NAME --location=$REGION

Informazioni sui dati

Il set di dati censuatari sul reddito utilizzato da questo esempio per l'addestramento è ospitato dal repository di machine learning dell'Università di Irvine.

Dati del censimento forniti da: Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. Questo set di dati è disponibile pubblicamente per chiunque lo voglia utilizzare ai seguenti termini forniti dall'origine del set di dati - http://archive.ics.uci.edu/ml - ed è fornito "COSÌ COM'È" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso del set di dati.

Per praticità, abbiamo ospitato i dati in un bucket Cloud Storage pubblico: gs://cloud-samples-data/ai-platform/sklearn/census_data/, che puoi scaricare nel file di addestramento Python.

Crea il file del modello Python

Puoi trovare tutto il codice di addestramento per questa sezione su GitHub: train.py.

Il resto di questa sezione fornisce una spiegazione della funzione del codice di addestramento.

Configurazione

Importa le seguenti librerie da Python, Google Cloud CLI e da scikit-learn. Imposta una variabile per il nome del bucket Cloud Storage.

import datetime
import pandas as pd
import joblib

from google.cloud import storage

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.pipeline import FeatureUnion
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelBinarizer


# TODO: REPLACE 'YOUR_BUCKET_NAME' with your GCS Bucket name.
BUCKET_NAME = 'YOUR_BUCKET_NAME'

Scaricare i dati da Cloud Storage

Durante il normale processo di sviluppo, carichi i tuoi dati su Cloud Storage in modo che AI Platform Training possa accedervi. I dati per questo tutorial sono ospitati in un bucket pubblico: gs://cloud-samples-data/ai-platform/sklearn/census_data/

Il codice seguente scarica il set di dati di addestramento adult.data. I dati di valutazione sono disponibili in adult.test, ma non vengono utilizzati in questo tutorial.

# Public bucket holding the census data
bucket = storage.Client().bucket('cloud-samples-data')

# Path to the data inside the public bucket
blob = bucket.blob('ai-platform/sklearn/census_data/adult.data')
# Download the data
blob.download_to_filename('adult.data')

Aggiungi il codice del modello

Il codice di addestramento del modello esegue alcuni passaggi di base:

  • Definire e caricare i dati
  • Convertire le caratteristiche categoriche in caratteristiche numeriche
  • Estrarre caratteristiche numeriche con una pipeline di scikit-learn
  • Esporta e salva il modello in Cloud Storage

Definire e caricare i dati

# Define the format of your input data including unused columns (These are the columns from the census data files)
COLUMNS = (
    'age',
    'workclass',
    'fnlwgt',
    'education',
    'education-num',
    'marital-status',
    'occupation',
    'relationship',
    'race',
    'sex',
    'capital-gain',
    'capital-loss',
    'hours-per-week',
    'native-country',
    'income-level'
)

# Categorical columns are columns that need to be turned into a numerical value to be used by scikit-learn
CATEGORICAL_COLUMNS = (
    'workclass',
    'education',
    'marital-status',
    'occupation',
    'relationship',
    'race',
    'sex',
    'native-country'
)


# Load the training census dataset
with open('./adult.data', 'r') as train_data:
    raw_training_data = pd.read_csv(train_data, header=None, names=COLUMNS)

# Remove the column we are trying to predict ('income-level') from our features list
# Convert the Dataframe to a lists of lists
train_features = raw_training_data.drop('income-level', axis=1).values.tolist()
# Create our training labels list, convert the Dataframe to a lists of lists
train_labels = (raw_training_data['income-level'] == ' >50K').values.tolist()

Convertire le caratteristiche categoriche in caratteristiche numeriche

# Since the census data set has categorical features, we need to convert
# them to numerical values. We'll use a list of pipelines to convert each
# categorical column and then use FeatureUnion to combine them before calling
# the RandomForestClassifier.
categorical_pipelines = []

# Each categorical column needs to be extracted individually and converted to a numerical value.
# To do this, each categorical column will use a pipeline that extracts one feature column via
# SelectKBest(k=1) and a LabelBinarizer() to convert the categorical value to a numerical one.
# A scores array (created below) will select and extract the feature column. The scores array is
# created by iterating over the COLUMNS and checking if it is a CATEGORICAL_COLUMN.
for i, col in enumerate(COLUMNS[:-1]):
    if col in CATEGORICAL_COLUMNS:
        # Create a scores array to get the individual categorical column.
        # Example:
        #  data = [39, 'State-gov', 77516, 'Bachelors', 13, 'Never-married', 'Adm-clerical',
        #         'Not-in-family', 'White', 'Male', 2174, 0, 40, 'United-States']
        #  scores = [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
        #
        # Returns: [['State-gov']]
        # Build the scores array.
        scores = [0] * len(COLUMNS[:-1])
        # This column is the categorical column we want to extract.
        scores[i] = 1
        skb = SelectKBest(k=1)
        skb.scores_ = scores
        # Convert the categorical column to a numerical value
        lbn = LabelBinarizer()
        r = skb.transform(train_features)
        lbn.fit(r)
        # Create the pipeline to extract the categorical feature
        categorical_pipelines.append(
            ('categorical-{}'.format(i), Pipeline([
                ('SKB-{}'.format(i), skb),
                ('LBN-{}'.format(i), lbn)])))

Estrarre caratteristiche numeriche con una pipeline di scikit-learn

# Create pipeline to extract the numerical features
skb = SelectKBest(k=6)
# From COLUMNS use the features that are numerical
skb.scores_ = [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0]
categorical_pipelines.append(('numerical', skb))

# Combine all the features using FeatureUnion
preprocess = FeatureUnion(categorical_pipelines)

# Create the classifier
classifier = RandomForestClassifier()

# Transform the features and fit them to the classifier
classifier.fit(preprocess.transform(train_features), train_labels)

# Create the overall model as a single pipeline
pipeline = Pipeline([
    ('union', preprocess),
    ('classifier', classifier)
])

Esporta e salva il modello in Cloud Storage

Se il bucket Cloud Storage si trova nello stesso progetto utilizzato per AI Platform Training, quest'ultimo può leggere e scrivere nel tuo bucket. In caso contrario, devi assicurarti che il progetto che utilizzi per eseguire AI Platform Training possa accedere al tuo bucket Cloud Storage. Scopri come concedere le autorizzazioni per lo spazio di archiviazione.

Assicurati di chiamare il file del modello model.pklo model.joblib se vuoi utilizzarlo per richiedere previsioni online con AI Platform Prediction.

# Export the model to a file
model = 'model.joblib'
joblib.dump(pipeline, model)

# Upload the model to GCS
bucket = storage.Client().bucket(BUCKET_NAME)
blob = bucket.blob('{}/{}'.format(
    datetime.datetime.now().strftime('census_%Y%m%d_%H%M%S'),
    model))
blob.upload_from_filename(model)

(Facoltativo) Verifica il caricamento del file del modello in Cloud Storage

Nella riga di comando, visualizza i contenuti della cartella del modello di destinazione per verificare che il file del modello sia stato caricato su Cloud Storage. Se non lo hai già fatto, imposta una variabile di ambiente (BUCKET_NAME) per il nome del bucket.

gcloud storage ls gs://$BUCKET_NAME/census_*

L'output dovrebbe essere simile al seguente:

gs://[YOUR-PROJECT-ID]/census_[DATE]_[TIME]/model.joblib

Crea il pacchetto dell'applicazione di addestramento

Il modo più semplice (e consigliato) per creare un pacchetto di applicazioni di addestramento utilizza gcloud per pacchettizzare e caricare l'applicazione quando invii il job di addestramento. Questo metodo consente di creare una struttura di file molto semplice con solo due file. Per questo tutorial, la struttura del file del pacchetto dell'applicazione di addestramento dovrebbe essere simile alla seguente:

census_training/
    __init__.py
    train.py
  1. Crea una directory localmente:

    mkdir census_training
    
  2. Crea un file vuoto denominato __init__.py:

    touch census_training/__init__.py
    
  3. Salva il codice di addestramento in un file Python e salva il file nella directorycensus_training. Consulta l'esempio di codice per train.py. Puoi utilizzare cURL per scaricare e salvare il file:

    curl https://raw.githubusercontent.com/GoogleCloudPlatform/cloudml-samples/master/sklearn/notebooks/census_training/train.py > census_training/train.py
    

Scopri di più sulla pacchettizzazione di un'applicazione di formazione.

Invia il job di addestramento

In questa sezione utilizzerai gcloud ai-platform jobs submit training per inviare il tuo job di addestramento.

Specificare i parametri del job di addestramento

Imposta le seguenti variabili di ambiente per ogni parametro nella richiesta del job di addestramento:

  • PROJECT_ID: utilizza l'ID progetto corrispondente al tuo progetto Google Cloud .
  • BUCKET_NAME: il nome del bucket Cloud Storage.
  • JOB_NAME: un nome da utilizzare per il job (solo lettere maiuscole e minuscole, numeri e trattini bassi, che deve iniziare con una lettera). In questo caso: census_training_$(date +"%Y%m%d_%H%M%S")
  • JOB_DIR: il percorso di una posizione Cloud Storage da utilizzare per i file di output del job di addestramento. Ad esempio, gs://$BUCKET_NAME/scikit_learn_job_dir.
  • TRAINING_PACKAGE_PATH: il percorso locale alla directory principale dell'applicazione di addestramento. In questo caso: ./census_training/.
  • MAIN_TRAINER_MODULE: specifica il file che deve essere eseguito dal servizio di addestramento AI Platform Training. Questo valore è formattato come [YOUR_FOLDER_NAME.YOUR_PYTHON_FILE_NAME]. In questo caso, census_training.train.
  • REGION: il nome della regione utilizzata per eseguire il job di addestramento. Utilizza una delle regioni disponibili per il servizio di addestramento AI Platform Training. Assicurati che il bucket Cloud Storage si trovi nella stessa regione.
  • RUNTIME_VERSION: devi specificare una versione di runtime di AI Platform Training che supporti scikit-learn. In questo esempio, 2.11.
  • PYTHON_VERSION: la versione di Python da utilizzare per il job. Per questo tutorial, specifica Python 3.7.
  • SCALE_TIER: una specifica del cluster predefinita per le macchine su cui eseguire il job di addestramento. In questo caso, BASIC. Puoi anche utilizzare livelli di scalabilità personalizzati per definire la tua configurazione del cluster per l'addestramento.

Per comodità, di seguito sono riportate le variabili di ambiente per questo tutorial. Sostituisci [VALUES-IN-BRACKETS] con i valori appropriati:

PROJECT_ID=[YOUR-PROJECT-ID]
BUCKET_NAME=[YOUR-BUCKET-NAME]
JOB_NAME=census_training_$(date +"%Y%m%d_%H%M%S")
JOB_DIR=gs://$BUCKET_NAME/scikit_learn_job_dir
TRAINING_PACKAGE_PATH="[YOUR-LOCAL-PATH-TO-TRAINING-PACKAGE]/census_training/"
MAIN_TRAINER_MODULE=census_training.train
REGION=us-central1
RUNTIME_VERSION=2.11
PYTHON_VERSION=3.7
SCALE_TIER=BASIC

Invia la richiesta:

gcloud ai-platform jobs submit training $JOB_NAME \
  --job-dir $JOB_DIR \
  --package-path $TRAINING_PACKAGE_PATH \
  --module-name $MAIN_TRAINER_MODULE \
  --region $REGION \
  --runtime-version=$RUNTIME_VERSION \
  --python-version=$PYTHON_VERSION \
  --scale-tier $SCALE_TIER

Dovresti vedere un output simile al seguente:

Job [census_training_[DATE]_[TIME]] submitted successfully.
Your job is still active. You may view the status of your job with the command

  $ gcloud ai-platform jobs describe census_training_[DATE]_[TIME]

or continue streaming the logs with the command

  $ gcloud ai-platform jobs stream-logs census_training_[DATE]_[TIME]
jobId: census_training_[DATE]_[TIME]
state: QUEUED

(Facoltativo) Visualizzazione dei log di addestramento

AI Platform Training acquisisce tutti gli stream e le istruzioni di logging stdout e stderr. Questi log vengono archiviati in Logging e sono visibili sia durante sia dopo l'esecuzione.

Per visualizzare i log del job di addestramento:

Console

  1. Apri la pagina Job di AI Platform Training.

    Apri job nella console Google Cloud

  2. Seleziona il nome del job di addestramento da ispezionare. Viene visualizzata la pagina Dettagli job per il job di addestramento selezionato.

  3. Nei dettagli del job, seleziona il link Visualizza log. Viene visualizzata la pagina Logging, in cui puoi cercare e filtrare i log relativi al job di addestramento selezionato.

gcloud

Puoi visualizzare i log nel terminale con gcloud ai-platform jobs stream-logs.

gcloud ai-platform jobs stream-logs $JOB_NAME

Passaggi successivi