Training mit scikit-learn in AI Platform Training

Der Trainingsdienst von AI Platform Training verwaltet die Rechenressourcen in der Cloud für das Training Ihrer Modelle. Auf dieser Seite erfahren Sie, wie Sie ein scikit-learn-Modell mit AI Platform Training trainieren.

In dieser Anleitung wird ein einfaches Modell zur Vorhersage des Einkommensniveaus einer Person basierend auf dem Census Income Data Set (Dataset zur Einkommenserhebung) trainiert. Sie erstellen lokal eine Trainingsanwendung, laden diese in Cloud Storage hoch und senden einen Trainingsjob. Der Trainingsdienst von AI Platform Training schreibt dann die Ausgabe in Ihren Cloud Storage-Bucket und erstellt Logs in Logging.

Dieser Inhalt ist auch auf GitHub als Jupyter Notebook verfügbar.

Modell in AI Platform Training trainieren

So trainieren Sie Ihr Modell in AI Platform Training in drei Schritten:

  • Python-Modelldatei erstellen
    • Sie fügen Code zum Herunterladen Ihrer Daten aus Cloud Storage hinzu, damit AI Platform Training sie verwenden kann.
    • Sie fügen Code hinzu, um das Modell nach Cloud Storage zu exportieren und dort zu speichern, wenn das Training in AI Platform Training beendet ist.
  • Trainingsanwendungspaket vorbereiten
  • Trainingsjob senden

Hinweise

Führen Sie die folgenden Schritte aus, um ein GCP-Konto einzurichten, die AI Platform Training API zu aktivieren und das Cloud SDK zu installieren und zu aktivieren.

GCP-Projekt einrichten

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. AI Platform Training & Prediction and Compute Engine APIs aktivieren.

    Aktivieren Sie die APIs

  5. Installieren Sie die Google Cloud CLI.
  6. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init
  7. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  8. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  9. AI Platform Training & Prediction and Compute Engine APIs aktivieren.

    Aktivieren Sie die APIs

  10. Installieren Sie die Google Cloud CLI.
  11. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init

Umgebung einrichten

Wählen Sie eine der folgenden Optionen aus, um Ihre Umgebung entweder lokal auf macOS oder in einer Remote-Umgebung in Cloud Shell einzurichten.

Nutzern von macOS wird empfohlen, ihre Umgebung mit dem folgenden MACOS-Tab einzurichten. Cloud Shell ist unter macOS, Linux und Windows verfügbar. Die entsprechende Anleitung finden Sie auf dem Tab CLOUD SHELL. Cloud Shell bietet eine schnelle Möglichkeit für den Test von AI Platform Training, eignet sich jedoch nicht für fortlaufende Entwicklungsarbeiten.

macOS

  1. Python-Installation prüfen.
    Prüfen Sie, ob Python installiert ist, und installieren Sie es gegebenenfalls.

    python -V
  2. pip-Installation prüfen.
    pip ist der Paketmanager von Python, der in aktuellen Versionen von Python enthalten ist. Prüfen Sie, ob Sie pip bereits installiert haben. Dazu führen Sie pip --version aus. Ist das nicht der Fall, lesen Sie die Anleitung zum Installieren von pip.

    Mit diesem Befehl können Sie ein Upgrade von pip ausführen:

    pip install -U pip

    Weitere Informationen finden Sie in der Dokumentation zu pip.

  3. virtualenv installieren
    virtualenv ist ein Tool, mit dem sich isolierte Python-Umgebungen erstellen lassen. Prüfen Sie, ob Sie virtualenv bereits installiert haben. Dazu führen Sie virtualenv --version aus. Ist dies nicht der Fall, installieren Sie virtualenv:

    pip install --user --upgrade virtualenv

    Zur Einrichtung einer isolierten Entwicklungsumgebung für diese Anleitung erstellen Sie in virtualenv eine neue virtuelle Umgebung. Mit dem folgenden Befehl wird beispielsweise eine Umgebung mit dem Namen aip-env aktiviert:

    virtualenv aip-env
    source aip-env/bin/activate
  4. Führen Sie für diese Anleitung die übrigen Befehle in Ihrer virtuellen Umgebung aus.

    Hier finden Sie weitere Informationen zur Verwendung von virtualenv. Zum Beenden von virtualenv führen Sie deactivate aus.

Cloud Shell

  1. Öffnen Sie die Google Cloud Console.

    Google Cloud Console

  2. Klicken Sie oben auf Cloud Shell aktivieren.

    Google Cloud Shell aktivieren

    In einem neuen Frame im unteren Teil der Console wird eine Cloud Shell-Sitzung geöffnet und darin eine Eingabeaufforderung angezeigt. Die Initialisierung der Shell-Sitzung kann einige Sekunden dauern.

    Cloud Shell-Sitzung

    Die Cloud Shell-Sitzung kann jetzt verwendet werden.

  3. Konfigurieren Sie das gcloud-Befehlszeilentool für die Verwendung des ausgewählten Projekts.

    gcloud config set project [selected-project-id]

    Dabei ist [selected-project-id] Ihre Projekt-ID. Diese geben Sie ohne die Klammern ein.

Frameworks installieren

macOS

Führen Sie in Ihrer virtuellen Umgebung den folgenden Befehl aus, um die Versionen von scikit-learn und pandas zu installieren, die in der Laufzeitversion 2.11 von AI Platform Training verwendet werden:

(aip-env)$ pip install scikit-learn==1.0.2 pandas==1.3.5

Durch die Angabe von Versionsnummern im vorherigen Befehl sorgen Sie dafür, dass die Abhängigkeiten in Ihrer virtuellen Umgebung mit den Abhängigkeiten in der Laufzeitversion übereinstimmen. Dies verhindert unerwartetes Verhalten, wenn Ihr Code in AI Platform Training ausgeführt wird.

Weitere Informationen, Hinweise zu weiteren Installationsoptionen und Informationen zur Fehlerbehebung finden Sie in den Installationsanleitungen für die einzelnen Frameworks:

Cloud Shell

Führen Sie den folgenden Befehl aus, um scikit-learn und pandas zu installieren:

pip install --user scikit-learn pandas

Weitere Informationen, Hinweise zu weiteren Installationsoptionen und Informationen zur Fehlerbehebung finden Sie in den Installationsanleitungen für die einzelnen Frameworks:

Cloud Storage-Bucket einrichten

Sie benötigen einen Cloud Storage-Bucket, um Trainingscode und Abhängigkeiten zu speichern. Für diese Anleitung ist es am einfachsten, wenn Sie einen dedizierten Cloud Storage-Bucket im selben Projekt wie AI Platform Training verwenden.

Wenn Sie einen Bucket in einem anderen Projekt verwenden, müssen Sie dafür sorgen, dass Ihr AI Platform Training-Dienstkonto auf Ihren Trainingscode und Ihre Abhängigkeiten in Cloud Storage zugreifen kann. Ohne die entsprechenden Berechtigungen wird der Trainingsjob nicht ordnungsgemäß ausgeführt. Hier erfahren Sie, wie Sie Berechtigungen für den Speicher erteilen.

Achten Sie darauf, dass Sie einen Bucket in der Region verwenden oder einrichten, in der Sie auch die Trainingsjobs ausführen. Hier finden Sie die Regionen, in denen AI Training Platform-Dienste verfügbar sind.

In diesem Abschnitt erfahren Sie, wie Sie einen neuen Bucket erstellen. Sie können auch einen vorhandenen Bucket verwenden. Dieser muss sich aber in der Region befinden, in der Sie AI Platform-Jobs ausführen. Hinzu kommt: Wenn der Bucket nicht in dem Projekt ist, das Sie für die Ausführung von AI Platform Training verwenden, müssen Sie den AI Platform Training-Dienstkonten explizit Zugriff gewähren.

  1. Geben Sie einen Namen für den neuen Bucket an. Der Name muss sich von allen anderen Bucket-Namen in Cloud Storage unterscheiden:

    BUCKET_NAME="YOUR_BUCKET_NAME"

    Verwenden Sie beispielsweise den Projektnamen mit angehängtem -aiplatform:

    PROJECT_ID=$(gcloud config list project --format "value(core.project)")
    BUCKET_NAME=${PROJECT_ID}-aiplatform
  2. Prüfen Sie den erstellten Bucketnamen.

    echo $BUCKET_NAME
  3. Wählen Sie eine Region für den Bucket aus und legen Sie eine Umgebungsvariable REGION fest.

    Verwenden Sie die Region, in der Sie auch AI Platform Training-Jobs ausführen möchten. Hier finden Sie die Regionen, in denen AI Platform Training-Dienste verfügbar sind.

    Mit dem folgenden Code wird beispielsweise REGION erstellt und auf us-central1 festgelegt:

    REGION=us-central1
  4. Erstellen Sie den neuen Bucket:

    gsutil mb -l $REGION gs://$BUCKET_NAME

Über die Daten

Das in diesem Beispiel für das Training verwendete Census Income Data Set (Dataset zur Einkommenserhebung) wird vom UC Irvine Machine Learning Repository gehostet.

Erhebungsdaten mit freundlicher Genehmigung von: Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. Dieses Dataset ist öffentlich verfügbar und kann unter den folgenden von der Dataset-Quelle angegebenen Bedingungen verwendet werden: http://archive.ics.uci.edu/ml. Das Dataset wird IM VORLIEGENDEN ZUSTAND ohne ausdrückliche oder stillschweigende Garantie von Google bereitgestellt. Google lehnt jegliche Haftung für direkte oder indirekte Schäden ab, die aus der Nutzung des Datasets resultieren.

Wir haben die Daten der Einfachheit halber in einem öffentlichen Cloud Storage-Bucket gehostet: gs://cloud-samples-data/ai-platform/sklearn/census_data/. Sie können diesen in Ihrer Python-Trainingsdatei herunterladen.

Python-Modelldatei erstellen

Sie finden den gesamten Trainingscode für diesen Abschnitt auf GitHub: train.py.

Im Rest dieses Abschnitts wird erläutert, wozu der Trainingscode dient.

Einrichtung

Importieren Sie die folgenden Bibliotheken aus Python, Google Cloud CLI und scikit-learn. Legen Sie eine Variable für den Namen Ihres Cloud Storage-Buckets fest.

import datetime
import pandas as pd
import joblib

from google.cloud import storage

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.pipeline import FeatureUnion
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelBinarizer

# TODO: REPLACE 'YOUR_BUCKET_NAME' with your GCS Bucket name.
BUCKET_NAME = 'YOUR_BUCKET_NAME'

Daten von Cloud Storage herunterladen

Im Rahmen eines typischen Entwicklungsprozesses laden Sie Ihre Daten in Cloud Storage hoch, damit AI Platform Training darauf zugreifen kann. Die Daten für diese Anleitung werden in einem öffentlichen Bucket gehostet: gs://cloud-samples-data/ai-platform/sklearn/census_data/

Mit dem nachfolgenden Code laden Sie das Trainings-Dataset adult.data herunter. (Bewertungsdaten sind in adult.test verfügbar, werden aber in dieser Anleitung nicht verwendet.)

# Public bucket holding the census data
bucket = storage.Client().bucket('cloud-samples-data')

# Path to the data inside the public bucket
blob = bucket.blob('ai-platform/sklearn/census_data/adult.data')
# Download the data
blob.download_to_filename('adult.data')

Modellcode hinzufügen

Der Trainingscode für das Modell dient zum Ausführen grundlegender Schritte:

  • Daten definieren und laden
  • Kategoriale Merkmale in numerische Merkmale umwandeln
  • Numerische Merkmale in einer scikit-learn-Pipeline extrahieren
  • Modell in Cloud Storage exportieren und speichern

Daten definieren und laden

# Define the format of your input data including unused columns (These are the columns from the census data files)
COLUMNS = (
    'age',
    'workclass',
    'fnlwgt',
    'education',
    'education-num',
    'marital-status',
    'occupation',
    'relationship',
    'race',
    'sex',
    'capital-gain',
    'capital-loss',
    'hours-per-week',
    'native-country',
    'income-level'
)

# Categorical columns are columns that need to be turned into a numerical value to be used by scikit-learn
CATEGORICAL_COLUMNS = (
    'workclass',
    'education',
    'marital-status',
    'occupation',
    'relationship',
    'race',
    'sex',
    'native-country'
)

# Load the training census dataset
with open('./adult.data', 'r') as train_data:
    raw_training_data = pd.read_csv(train_data, header=None, names=COLUMNS)

# Remove the column we are trying to predict ('income-level') from our features list
# Convert the Dataframe to a lists of lists
train_features = raw_training_data.drop('income-level', axis=1).values.tolist()
# Create our training labels list, convert the Dataframe to a lists of lists
train_labels = (raw_training_data['income-level'] == ' >50K').values.tolist()

Kategoriale Merkmale in numerische Merkmale umwandeln

# Since the census data set has categorical features, we need to convert
# them to numerical values. We'll use a list of pipelines to convert each
# categorical column and then use FeatureUnion to combine them before calling
# the RandomForestClassifier.
categorical_pipelines = []

# Each categorical column needs to be extracted individually and converted to a numerical value.
# To do this, each categorical column will use a pipeline that extracts one feature column via
# SelectKBest(k=1) and a LabelBinarizer() to convert the categorical value to a numerical one.
# A scores array (created below) will select and extract the feature column. The scores array is
# created by iterating over the COLUMNS and checking if it is a CATEGORICAL_COLUMN.
for i, col in enumerate(COLUMNS[:-1]):
    if col in CATEGORICAL_COLUMNS:
        # Create a scores array to get the individual categorical column.
        # Example:
        #  data = [39, 'State-gov', 77516, 'Bachelors', 13, 'Never-married', 'Adm-clerical',
        #         'Not-in-family', 'White', 'Male', 2174, 0, 40, 'United-States']
        #  scores = [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
        #
        # Returns: [['State-gov']]
        # Build the scores array.
        scores = [0] * len(COLUMNS[:-1])
        # This column is the categorical column we want to extract.
        scores[i] = 1
        skb = SelectKBest(k=1)
        skb.scores_ = scores
        # Convert the categorical column to a numerical value
        lbn = LabelBinarizer()
        r = skb.transform(train_features)
        lbn.fit(r)
        # Create the pipeline to extract the categorical feature
        categorical_pipelines.append(
            ('categorical-{}'.format(i), Pipeline([
                ('SKB-{}'.format(i), skb),
                ('LBN-{}'.format(i), lbn)])))

Numerische Merkmale in einer scikit-learn-Pipeline extrahieren

# Create pipeline to extract the numerical features
skb = SelectKBest(k=6)
# From COLUMNS use the features that are numerical
skb.scores_ = [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0]
categorical_pipelines.append(('numerical', skb))

# Combine all the features using FeatureUnion
preprocess = FeatureUnion(categorical_pipelines)

# Create the classifier
classifier = RandomForestClassifier()

# Transform the features and fit them to the classifier
classifier.fit(preprocess.transform(train_features), train_labels)

# Create the overall model as a single pipeline
pipeline = Pipeline([
    ('union', preprocess),
    ('classifier', classifier)
])

Modell in Cloud Storage exportieren und speichern

Wenn sich der Cloud Storage-Bucket in dem Projekt befindet, das Sie für AI Platform Training verwenden, hat AI Platform Training automatisch Lese- und Schreibzugriff darauf. Wenn nicht, ist es wichtig, dass das für die Ausführung von AI Platform Training verwendete Projekt auf den Cloud Storage-Bucket zugreifen kann. Informationen zum Erteilen von Berechtigungen für den Speicher finden Sie unter Mit Cloud Storage arbeiten.

Sie müssen der Modelldatei den Namen model.pkl oder model.joblib geben, wenn Sie sie zum Anfordern von Onlinevorhersagen mit AI Platform Prediction verwenden möchten.

# Export the model to a file
model = 'model.joblib'
joblib.dump(pipeline, model)

# Upload the model to GCS
bucket = storage.Client().bucket(BUCKET_NAME)
blob = bucket.blob('{}/{}'.format(
    datetime.datetime.now().strftime('census_%Y%m%d_%H%M%S'),
    model))
blob.upload_from_filename(model)

Upload der Modelldatei in Cloud Storage prüfen (optional)

Prüfen Sie in der Befehlszeile anhand des Inhalts des Zielordners für das Modell, ob die Modelldatei in Cloud Storage hochgeladen wurde. Geben Sie für den Bucket-Namen die Umgebungsvariable BUCKET_NAME an, falls Sie dies nicht bereits getan haben.

gsutil ls gs://$BUCKET_NAME/census_*

Die Ausgabe sollte in etwa so aussehen:

gs://[YOUR-PROJECT-ID]/census_[DATE]_[TIME]/model.joblib

Trainingsanwendungspaket erstellen

Die einfachste (und empfohlene) Methode zum Erstellen eines Trainingsanwendungspakets besteht darin, die Anwendung mit gcloud zu verpacken und hochzuladen, wenn Sie den Trainingsjob senden. Bei dieser Methode erstellen Sie eine sehr einfache Dateistruktur mit zwei Dateien. Für den Zweck dieser Anleitung sollte Ihr Trainingsanwendungspaket in etwa so aussehen:

census_training/
    __init__.py
    train.py
  1. Erstellen Sie ein lokales Verzeichnis:

    mkdir census_training
    
  2. Erstellen Sie eine leere Datei mit dem Namen __init__.py:

    touch census_training/__init__.py
    
  3. Speichern Sie den Trainingscode in einer Python-Datei, die Sie wiederum im Verzeichnis census_training speichern. Rufen Sie den Beispielcode für train.py auf. Sie können die Datei mit cURL herunterladen und speichern:

    curl https://raw.githubusercontent.com/GoogleCloudPlatform/cloudml-samples/master/sklearn/notebooks/census_training/train.py > census_training/train.py
    

Weitere Informationen zum Verpacken einer Trainingsanwendung

Trainingsjob senden

In diesem Abschnitt senden Sie den Trainingsjob mit gcloud ai-platform jobs submit training.

Parameter für Trainingsjob festlegen

Legen Sie für jeden Parameter in Ihrer Trainingsjobanfrage die folgenden Umgebungsvariablen fest:

  • PROJECT_ID: die PROJECT_ID, die Ihrem Google Cloud-Projekt entspricht.
  • BUCKET_NAME: der Name Ihres Cloud Storage-Buckets.
  • JOB_NAME: Der für den Job zu verwendende, mit einem Buchstaben beginnende Name, bestehend aus Groß- und Kleinbuchstaben, Ziffern und Unterstrichen. In diesem Fall: census_training_$(date +"%Y%m%d_%H%M%S")
  • JOB_DIR: Der Pfad zu einem Cloud Storage-Speicherort, der für die Ausgabedateien des Trainingsjobs verwendet werden soll. Beispiel: gs://$BUCKET_NAME/scikit_learn_job_dir.
  • TRAINING_PACKAGE_PATH: Der lokale Pfad zum Stammverzeichnis der Trainingsanwendung, In diesem Fall: ./census_training/
  • MAIN_TRAINER_MODULE: die Datei, die der Trainingsdienst von AI Platform Training ausführen soll. Das Format sieht so aus: [YOUR_FOLDER_NAME.YOUR_PYTHON_FILE_NAME]. In diesem Fall: census_training.train.
  • REGION: Der Name der Region, in der Sie den Trainingsjob ausführen. Verwenden Sie dafür eine der verfügbaren Regionen für den Trainingsdienst von AI Platform Training. Achten Sie darauf, dass sich der Cloud Storage-Bucket in derselben Region befindet.
  • RUNTIME_VERSION: Sie müssen eine AI Platform Training-Laufzeitversion angeben, die scikit-learn unterstützt, in diesem Beispiel 2.11.
  • PYTHON_VERSION: Die für den Job zu verwendende Python-Version; Geben Sie für diese Anleitung Python 3.7 an.
  • SCALE_TIER: Eine vordefinierte Clusterspezifikation für Rechner, auf denen der Trainingsjob ausgeführt werden soll. In diesem Fall BASIC. Sie können mit benutzerdefinierten Skalierungsstufen auch eine eigene Clusterkonfiguration für das Training definieren.

Die Umgebungsvariablen für diese Anleitung sind unten aufgeführt. Ersetzen Sie [VALUES-IN-BRACKETS] dabei durch die entsprechenden Werte:

PROJECT_ID=[YOUR-PROJECT-ID]
BUCKET_NAME=[YOUR-BUCKET-NAME]
JOB_NAME=census_training_$(date +"%Y%m%d_%H%M%S")
JOB_DIR=gs://$BUCKET_NAME/scikit_learn_job_dir
TRAINING_PACKAGE_PATH="[YOUR-LOCAL-PATH-TO-TRAINING-PACKAGE]/census_training/"
MAIN_TRAINER_MODULE=census_training.train
REGION=us-central1
RUNTIME_VERSION=2.11
PYTHON_VERSION=3.7
SCALE_TIER=BASIC

Senden Sie die Anfrage:

gcloud ai-platform jobs submit training $JOB_NAME \
  --job-dir $JOB_DIR \
  --package-path $TRAINING_PACKAGE_PATH \
  --module-name $MAIN_TRAINER_MODULE \
  --region $REGION \
  --runtime-version=$RUNTIME_VERSION \
  --python-version=$PYTHON_VERSION \
  --scale-tier $SCALE_TIER

Die Ausgabe sollte in etwa so aussehen:

Job [census_training_[DATE]_[TIME]] submitted successfully.
Your job is still active. You may view the status of your job with the command

  $ gcloud ai-platform jobs describe census_training_[DATE]_[TIME]

or continue streaming the logs with the command

  $ gcloud ai-platform jobs stream-logs census_training_[DATE]_[TIME]
jobId: census_training_[DATE]_[TIME]
state: QUEUED

Trainingslogs ansehen (optional)

AI Platform Training erfasst alle Streams und Logberichte von stdout und stderr. Diese Logs werden in Stackdriver Logging gespeichert und sind sowohl während als auch nach der Ausführung sichtbar.

So zeigen Sie die Logs für Ihren Trainingsjob an:

Console

  1. Rufen Sie die AI Platform Training-Seite Jobs auf.

    Jobs in der Google Cloud Console öffnen

  2. Wählen Sie den Namen des zu prüfenden Trainingsjobs aus. Dadurch gelangen Sie zur Seite Jobdetails für den ausgewählten Trainingsjob.

  3. Klicken Sie in den Jobdetails auf den Link Logs ansehen. Sie werden zur Logging-Seite weitergeleitet, auf der Sie Logs für den ausgewählten Trainingsjob suchen und filtern können.

gcloud

Mit gcloud ai-platform jobs stream-logs können Sie Logs in Ihrem Terminal aufrufen:

gcloud ai-platform jobs stream-logs $JOB_NAME

Nächste Schritte