Diese Legacy-Version von AI Platform Training wurde verworfen und ist nach dem 31. Januar 2025 nicht mehr in Google Cloud verfügbar. Migrieren Sie Ihre Ressourcen zum benutzerdefinierten Vertex AI-Training, um neue Features für maschinelles Lernen zu erhalten, die in der AI Platform nicht verfügbar sind.

Erste Schritte mit dem integrierten XGBoost-Algorithmus

Mit den integrierten Algorithmen von AI Platform Training senden Sie Trainingsdaten und wählen einen Algorithmus aus – die Vorverarbeitung sowie das Training übernimmt dann AI Platform Training für Sie. Sie brauchen keinen Code für eine Trainingsanwendung zu schreiben.

Überblick

In dieser Anleitung trainieren Sie ein XGBoost-Modell, ohne dafür Code zu schreiben. Sie senden dabei das Census Income Dataset (Dataset zur Einkommenserhebung) zur Vorverarbeitung und zum Training an AI Platform Training und stellen dann das Modell in AI Platform Training für Vorhersagen bereit. Das trainierte Modell sagt die Wahrscheinlichkeit voraus, dass das jährliche Einkommen einer Person mehr als 50.000 $ beträgt.

Hinweise

Wenn Sie diese Anleitung über die Befehlszeile ausführen möchten, verwenden Sie entweder Cloud Shell oder eine Umgebung, in der das Google Cloud CLI installiert ist.

Führen Sie die folgenden Schritte aus, um ein GCP-Konto einzurichten, die erforderlichen APIs zu aktivieren und das Google Cloud CLI zu installieren und zu aktivieren.

Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

AI Platform Training & Prediction and Compute Engine APIs aktivieren.

Aktivieren Sie die APIs

Installieren Sie die Google Cloud CLI.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

AI Platform Training & Prediction and Compute Engine APIs aktivieren.

Aktivieren Sie die APIs

Installieren Sie die Google Cloud CLI.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Einrichtung

Wenn Sie tabellarische integrierte Algorithmen verwenden möchten, müssen Sie die Kopfzeile aus der CSV-Datei entfernen und die Zielwerte in die erste Spalte verschieben. Wir haben das ursprüngliche Dataset der Einkommenserhebung für die Verwendung in dieser Anleitung geändert und im öffentlichen Cloud Storage-Bucket gs://cloud-samples-data/ai-platform/census/algorithms/data/ gehostet.

Console

Bevor Sie mit dem Trainingsjob beginnen, müssen Sie die Daten aus unserem öffentlichen Cloud Storage-Bucket in Ihren Cloud Storage-Bucket kopieren.

Beispieldaten in Ihren Cloud Storage-Bucket kopieren

Hinweis: Dieser spezielle Schritt lässt sich einfacher über die Befehlszeile ausführen. Eine Anleitung hierzu finden Sie auf dem Tab gcloud.

Laden Sie zuerst die Trainings- und Testdaten aus unserem öffentlichen Cloud Storage-Bucket herunter.
1. Rufen Sie unseren öffentlichen Cloud Storage-Bucket auf:
  
  Beispieldaten abrufen
2. Laden Sie sowohl test.csv als auch train.csv herunter:
  1. Klicken Sie auf den Dateinamen.
  2. Klicken Sie auf der Seite Objektdetails auf Herunterladen. Diese Dateien werden in Ihre lokale Umgebung als ai-platform_census_algorithms_data_test.csv oder ai-platform_census_algorithms_data_train.csv heruntergeladen.
Laden Sie anschließend die Trainings- und Testdaten in Ihren Cloud Storage-Bucket hoch.
1. Rufen Sie die Browserseite für Ihren Cloud Storage-Bucket auf. Wählen Sie Ihr Projekt in der Drop-down-Liste Projekt auswählen aus oder öffnen Sie es in einem neuen Tab:
  
  Cloud Storage-Browserseite
2. Klicken Sie auf den Namen des Buckets, den Sie verwenden möchten, oder erstellen Sie einen neuen Bucket. Wenn Sie einen neuen erstellen, muss es sich um einen regionalen Bucket handeln. Wählen Sie die Region aus, in der Sie den AI Platform Training-Trainingsjob ausführen.
3. (Optional) Klicken Sie auf Ordner erstellen, um einen Ordner für die hochgeladenen Dateien zu erstellen. Geben Sie einen Namen für den Ordner ein (z. B. "Daten") und klicken Sie auf Erstellen. Klicken Sie anschließend auf den Namen des neuen Ordners, um ihn zu öffnen.
4. Klicken Sie auf Dateien hochladen, um sowohl die Trainings- als auch die Testdateien hochzuladen und ai-platform_census_algorithms_data_train.csv sowie ai-platform_census_algorithms_data_test.csv zu Ihrem Bucket hinzuzufügen.

Nachdem die Daten in Ihren Bucket kopiert wurden, können Sie einen Trainingsjob starten. Wählen Sie dazu den gewünschten Algorithmustyp aus.

Algorithmus auswählen

Rufen Sie in der Google Cloud Console die AI Platform Training-Seite „Jobs” auf:

Seite "Jobs" unter "AI Platform Training"
Klicken Sie auf die Schaltfläche Neuer Trainingsjob. Klicken Sie in den darunter angezeigten Optionen auf Integriertes Algorithmustraining. Anschließend wird die Seite Neuen Trainingsjob erstellen aufgerufen.
Das Erstellen eines Trainingsjobs gliedert sich in vier Schritte. Der erste Schritt lautet Trainingsalgorithmus. Wählen Sie XGBoost aus und klicken Sie auf Weiter.

gcloud

Richten Sie Umgebungsvariablen für Ihre Projekt-ID, Ihren Cloud Storage-Bucket, den Cloud Storage-Pfad zu den Trainingsdaten und den ausgewählten Algorithmus ein.

Die integrierten Algorithmen von AI Platform Training befinden sich in Docker-Containern, die in Container Registry gehostet werden.

PROJECT_ID=YOUR_PROJECT_ID
BUCKET_NAME=YOUR_BUCKET_NAME
REGION="us-central1"
gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Copy the training data into your Cloud Storage bucket, and set the path
# to your copy of the training data.
TRAINING_DATA_SOURCE=gs://cloud-samples-data/ai-platform/census/algorithms/data/train.csv
TRAINING_DATA_PATH=gs://$BUCKET_NAME/algorithms-demo/data/train.csv
gsutil cp $TRAINING_DATA_SOURCE $TRAINING_DATA_PATH

# Specify the Docker container URI specific to the algorithm.
IMAGE_URI="gcr.io/cloud-ml-algos/boosted_trees:latest"

Trainingsjob senden

Zum Senden eines Jobs müssen Sie sowohl für das Training als auch den XGBoost-Algorithmus einige grundlegende Argumente angeben.

Allgemeine Argumente für den Trainingsjob:

Argumente für Trainingsjobs
Argument	Beschreibung
`job-id`	Eindeutige ID für den Trainingsjob; anhand dieser ID können Sie nach dem Senden des Trainingsjobs nach Logs zu seinem Status suchen.
`job-dir`	Cloud Storage-Pfad, in dem AI Platform Training nach Abschluss eines erfolgreichen Trainingsjobs die Trainingsdateien speichert.
`scale-tier`	Gibt Maschinentypen für das Training an. Verwenden Sie `BASIC`, um eine Konfiguration mit nur einer Maschine auszuwählen.
`master-image-uri`	Container Registry-URI zur Angabe des Docker-Containers, der für den Trainingsjob genutzt werden soll. Verwenden Sie den Container für den integrierten XGBoost-Algorithmus, der zuvor als `IMAGE_URI` definiert wurde.
`region`	Geben Sie die verfügbare Region an, in der Ihr Trainingsjob ausgeführt werden soll. In dieser Anleitung können Sie die Region `us-central1` verwenden.

Spezifische Argumente für den integrierten XGBoost-Algorithmus:

Algorithmusargumente
Argument	Beschreibung
`preprocess`	Boolesches Argument, das angibt, ob AI Platform Training die Daten vorverarbeiten soll.
`objective`	Lernaufgabe und entsprechendes Lernziel, in diesem Beispiel "binary:logistic".
`training_data_path`	Cloud Storage-Speicherort für die Trainingsdaten, die in einer CSV-Datei vorliegen müssen.

Eine detaillierte Liste aller anderen Flags des XGBoost-Algorithmus finden Sie in der Referenz zum integrierten XGBoost-Algorithmus.

Console

Lassen Sie das Kästchen Automatische Datenvorverarbeitung aktivieren angeklickt.
Klicken Sie für Trainingsdatenpfad auf Durchsuchen. Klicken Sie im rechten Bereich auf den Namen des Buckets, in den Sie die Trainingsdaten hochgeladen haben, und wechseln Sie zur Datei ai-platform_census_algorithms_data_train.csv.
Übernehmen Sie für die Felder Validierungsdaten und Testdaten die Standardeinstellungen.
Geben Sie unter Ausgabeverzeichnis den Pfad zu Ihrem Cloud Storage-Bucket ein, in dem AI Platform Training die Ausgaben Ihres Trainingsjobs speichern soll. Sie können den Pfad zu Ihrem Cloud Storage-Bucket direkt eingeben oder auf die Schaltfläche Durchsuchen klicken und ihn auswählen.

Erstellen Sie in Ihrem Cloud Storage-Bucket zur besseren Übersichtlichkeit ein neues Verzeichnis für diesen Trainingsjob. Dazu können Sie das Feld Durchsuchen verwenden.

Klicken Sie auf Weiter.
Wählen Sie für Ziel die Option "binary:logistic" aus. Damit wird angegeben, dass die Lernaufgabe binär und das Ziel eine logistische Regression ist.
Wählen Sie für Modelltyp die Option Klassifikation aus.
Übernehmen Sie für alle anderen Felder die Standardeinstellungen und klicken Sie auf Weiter.
Gehen Sie auf der Seite Jobeinstellungen so vor:
1. Geben Sie eine eindeutige Job-ID wie "xboost_example" ein.
2. Geben Sie eine verfügbare Region wie "us-central1" ein.
3. Wählen Sie "BASIC" als Skalierungsstufe aus.
Klicken Sie auf Fertig, um den Trainingsjob zu senden.

gcloud

Richten Sie alle Argumente für den Trainingsjob und den Algorithmus ein, bevor Sie den Job mit gcloud senden:

DATASET_NAME="census"
ALGORITHM="xgboost"
MODEL_TYPE="classification"
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"

# Give a unique name to your training job.
DATE="$(date '+%Y%m%d_%H%M%S')"
JOB_ID="${MODEL_NAME}_${DATE}"

# Make sure you have access to this Cloud Storage bucket.
JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"

Senden Sie den Job:

gcloud ai-platform jobs submit training $JOB_ID \
  --master-image-uri=$IMAGE_URI --scale-tier=BASIC --job-dir=$JOB_DIR \
  -- \
  --preprocess --objective=binary:logistic \
  --training_data_path=$TRAINING_DATA_PATH

Nachdem der Job erfolgreich gesendet wurde, können Sie die Logs mit folgenden gcloud-Befehlen aufrufen:
```
gcloud ai-platform jobs describe $JOB_ID
gcloud ai-platform jobs stream-logs $JOB_ID
```
Hinweis: Die Ausführung des Trainingsjobs kann einige Minuten dauern. Dass er erfolgreich abgeschlossen wurde, sehen Sie an einem Log mit der Meldung "XGBoost training finished" (XGBoost-Training ist beendet).

Struktur des Jobverzeichnisses

Nach erfolgreicher Ausführung eines Trainingsjobs erstellt AI Platform Training ein trainiertes Modell sowie einige andere Artefakte in Ihrem Cloud Storage-Bucket. Ihr JOB_DIR hat folgende Verzeichnisstruktur:

Modell/
- model.pkl
- deployment_config.yaml
Artefakte/
- instance_generator.py
- metadata.json
verarbeitete_Daten/
- training.csv
- validation.csv
- test.csv

Bestätigen Sie, dass die Verzeichnisstruktur in Ihrem JOB_DIR hiermit übereinstimmt:

gsutil ls -a $JOB_DIR/*

Trainiertes Modell bereitstellen

AI Platform Prediction verwaltet Ihre trainierten Modelle mithilfe von model- und model. Ein AI Platform Prediction-Modell ist ein Container für die Versionen Ihres Modells für maschinelles Lernen.

Zum Bereitstellen eines Modells erstellen Sie eine Modellressource in AI Platform Prediction und erstellen eine Version dieses Modells. Mit dem Modell und der Version fordern Sie anschließend Onlinevorhersagen an.

Weitere Informationen dazu, wie Sie Modelle in AI Platform Prediction bereitstellen

Console

Auf der Seite Jobs sind alle Trainingsjobs aufgelistet. Klicken Sie auf den Namen des gerade gesendeten Trainingsjobs ("xgboost_example" oder den von Ihnen verwendeten Jobnamen).
Auf der Seite Jobdetails sehen Sie den allgemeinen Fortschritt Ihres Jobs. Sie können auch auf Logs ansehen klicken, um eine detailliertere Ansicht des Fortschritts aufzurufen.
Wenn die Jobausführung erfolgreich war, wird oben die Schaltfläche Modell bereitstellen eingeblendet. Klicken Sie auf Modell bereitstellen.
Wählen Sie "Als neues Modell bereitstellen" aus und geben Sie einen Modellnamen wie "xgboost_model" ein. Klicken Sie anschließend auf Bestätigen.
Geben Sie auf der Seite Version erstellen einen Versionsnamen wie "v1" ein und übernehmen Sie für alle anderen Felder die Standardeinstellungen. Klicken Sie auf Speichern.
Auf der Seite Modelldetails wird der Versionsname angezeigt. Es dauert einige Minuten, bis die Version erstellt ist. Wenn die Version fertig ist, wird neben dem Versionsnamen ein Häkchen angezeigt.
Klicken Sie auf den Versionsnamen ("v1"), um die Seite Versionsdetails aufzurufen. Im nächsten Schritt dieser Anleitung senden Sie eine Vorhersageanfrage.

gcloud

Der Trainingsprozess mit dem integrierten XGBoost-Algorithmus erzeugt die Datei deployment_config.yaml, die die Bereitstellung Ihres Modells in AI Platform Prediction für Vorhersagen erleichtert.

Kopieren Sie die Datei in Ihr lokales Verzeichnis und rufen Sie ihren Inhalt auf:

gsutil cp $JOB_DIR/model/deployment_config.yaml .
cat deployment_config.yaml

Ihre deployment_config.yaml-Datei sollte in etwa so aussehen:

deploymentUri: gs://YOUR_BUCKET_NAME/algorithms_training/census_xgboost_classification/20190227060114/model
framework: XGBOOST
labels:
  job_id: census_xgboost_classification_20190227060114
  error_percentage: '14'
runtimeVersion: '0.81'
pythonVersion: '2.7'

Erstellen Sie das Modell und die Version in AI Platform Training:

MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"
gcloud ai-platform models create $MODEL_NAME --regions $REGION

# Create a model and a version using the file above.
VERSION_NAME="v_${DATE}"

gcloud ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --config deployment_config.yaml

Das Erstellen der Version dauert einige Minuten.

Onlinevorhersagen abrufen

Wenn Sie Vorhersagen abrufen, müssen die Eingabedaten genauso formatiert sein wie die Trainingsdaten. Vor dem Training werden Ihre Daten von AI Platform Training vorverarbeitet. Dabei werden sie in den Korpus von metadata.json umgewandelt.

Sie können instance_generator.py verwenden, um auf Ihre Eingabeinstanzen die gleichen Vorverarbeitungstransformationen anzuwenden, die von AI Platform Training auf Ihre Trainingsdaten angewendet werden. Diese Datei liest die in der Datei metadata.json gespeicherten Zuordnungsinformationen. Sie können auch die Funktion transform_string_instance im Modul verwenden, um den Rohstring in ein Format umzuwandeln, das vom Modell akzeptiert wird.

Laden Sie die Dateien mit den Trainingsartefakten herunter und prüfen Sie metadata.json:

gsutil cp $JOB_DIR/artifacts/* .

# Let's look at the metadata.json file
head metadata.json

Verwenden Sie instance_generator.py, um die Vorhersageeingabe für eine einzelne Dateninstanz vorzubereiten:

 # ground truth is >50K
RAW_DATA_POINT="44, Private, 160323, Some-college, 10, Married-civ-spouse, Machine-op-inspct, Husband, Black, Male, 7688, 0, 40, United-States"

 # Now let's create a JSON prediction request
python instance_generator.py --raw_data_string="${RAW_DATA_POINT}" > sample_input.json

# Let's look at the prediction request file.
cat sample_input.json

Senden Sie die Vorhersageanfrage:

gcloud ai-platform predict \
  --model $MODEL_NAME \
  --version $VERSION_NAME \
  --json-instances sample_input.json

Die resultierende Vorhersage sollte eine Zahl über 0,5 sein, was darauf hinweist, dass die Person höchstwahrscheinlich mehr als 50.000 $ verdient.

Über die Daten

Das in diesem Beispiel für das Training verwendete Census Income Data Set (Dataset zur Einkommenserhebung) wird vom UC Irvine Machine Learning Repository gehostet.

Erhebungsdaten mit freundlicher Genehmigung von: Lichman, M. (2013). UCI Machine Learning Repository http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.

Nächste Schritte

Mehr zur Verwendung des integrierten XGBoost-Algorithmus erfahren

Weiter

Training mit dem integrierten XGBoost-Algorithmus