Erste Schritte mit dem integrierten Algorithmus zur Bildklassifizierung

Mit den integrierten Algorithmen von AI Platform Training senden Sie Trainingsdaten und wählen einen Algorithmus aus – die Vorverarbeitung sowie das Training übernimmt dann AI Platform Training für Sie. Sie brauchen keinen Code für eine Trainingsanwendung zu schreiben. Mit integrierten Bildalgorithmen können Sie auf TPUs mit minimaler Konfiguration trainieren. Das resultierende TensorFlow SavedModel unterstützt die Bereitstellung auf CPUs und GPUs.

Überblick

In dieser Anleitung trainieren Sie ein Bildklassifizierungsmodell, ohne Code zu schreiben. Sie senden das Blumen-Dataset zum Training an AI Platform Training und stellen dann das Modell in AI Platform Prediction bereit, um Vorhersagen zu erhalten. Das resultierende Modell klassifiziert Blumenbilder nach Art (Gänseblümchen, Tulpen, Rosen, Sonnenblumenzellen oder Löwenzahn).

Hinweise

Wenn Sie diese Anleitung über die Befehlszeile ausführen möchten, verwenden Sie entweder Cloud Shell oder eine Umgebung, in der das Google Cloud CLI installiert ist.

Führen Sie die folgenden Schritte aus, um ein GCP-Konto einzurichten, die erforderlichen APIs zu aktivieren und das Google Cloud CLI zu installieren und zu aktivieren.

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. AI Platform Training & Prediction and Compute Engine APIs aktivieren.

    Aktivieren Sie die APIs

  5. Installieren Sie die Google Cloud CLI.
  6. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init
  7. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  8. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  9. AI Platform Training & Prediction and Compute Engine APIs aktivieren.

    Aktivieren Sie die APIs

  10. Installieren Sie die Google Cloud CLI.
  11. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init

Cloud TPU Zugriff auf das Projekt gewähren

Führen Sie die folgenden Schritte aus, um den Namen des Cloud TPU-Dienstkontos zu autorisieren, der Ihrem Google Cloud-Projekt zugeordnet ist:

  1. Rufen Sie den Namen Ihres Cloud TPU-Dienstkontos durch einen Aufruf von projects.getConfig ab. Beispiel:

    PROJECT_ID=PROJECT_ID
    
    curl -H "Authorization: Bearer $(gcloud auth print-access-token)"  \
        https://ml.googleapis.com/v1/projects/$PROJECT_ID:getConfig
    
  2. Speichern Sie den Wert der Felder serviceAccountProject und tpuServiceAccount, der von der API zurückgegeben wird.

  3. Initialisieren Sie das Cloud TPU-Dienstkonto:

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)"  \
      -H "Content-Type: application/json" -d '{}'  \
      https://serviceusage.googleapis.com/v1beta1/projects/<serviceAccountProject>/services/tpu.googleapis.com:generateServiceIdentity
    

Fügen Sie dem Projekt nun das Cloud TPU-Dienstkonto als Mitglied mit der Rolle Cloud ML-Dienst-Agent hinzu. Führen Sie die folgenden Schritte in der Google Cloud Console oder mit dem gcloud-Befehl aus:

Console

  1. Melden Sie sich in der Google Cloud Console an und wählen Sie das Projekt aus, in dem Sie die TPU verwenden.
  2. Wählen Sie IAM & Verwaltung > IAM aus.
  3. Klicken Sie auf die Schaltfläche Hinzufügen, um ein Mitglied zum Projekt hinzuzufügen.
  4. Geben Sie das TPU-Dienstkonto in das Textfeld Mitglieder ein.
  5. Klicken Sie auf die Drop-down-Liste Rollen.
  6. Aktivieren Sie die Rolle Cloud ML-Dienst-Agent (Dienstverwaltung > Cloud ML-Dienst-Agent).

gcloud

  1. Legen Sie Umgebungsvariablen fest, die die Projekt-ID und das Cloud TPU-Dienstkonto enthalten:

    PROJECT_ID=PROJECT_ID
    SVC_ACCOUNT=your-tpu-sa-123@your-tpu-sa.google.com.iam.gserviceaccount.com
    
  2. Weisen Sie dem Cloud TPU-Dienstkonto die Rolle ml.serviceAgent zu:

    gcloud projects add-iam-policy-binding $PROJECT_ID \
        --member serviceAccount:$SVC_ACCOUNT --role roles/ml.serviceAgent
    

Weitere Informationen über das Zuweisen von Rollen zu Dienstkonten finden Sie in der IAM-Dokumentation.

Einrichtung

Wir haben das TensorFlow-Dataset "Blumen" für die Verwendung mit dieser Anleitung geändert und im öffentlichen Cloud Storage-Bucket gs://cloud-samples-data/ai-platform/built-in/image/flowers/ gehostet.

Console

Algorithmus auswählen

  1. Rufen Sie in der Google Cloud Console die AI Platform Training-Seite „Jobs” auf:

    Seite "Jobs" unter "AI Platform Training"

  2. Klicken Sie auf die Schaltfläche Neuer Trainingsjob. Klicken Sie in den darunter angezeigten Optionen auf Integriertes Algorithmustraining. Anschließend wird die Seite Neuen Trainingsjob erstellen aufgerufen.

  3. Das Erstellen eines Trainingsjobs gliedert sich in vier Schritte. Der erste Schritt lautet Trainingsalgorithmus. Wählen Sie Bildklassifizierung aus und klicken Sie auf Weiter.

Trainingsdaten

  1. Wählen Sie im Bereich Trainingsdaten die Trainingsdaten für das Beispiel-Dataset aus, das in unserem öffentlichen Cloud Storage-Bucket gehostet wird:

    1. Wählen Sie Mehrere in einem Cloud Storage-Verzeichnis gespeicherte Dateien verwenden aus.

    2. Geben Sie Folgendes für den Verzeichnispfad ein: "cloud-samples-data/ai-platform/built-in/image/flowers/".

    3. Geben Sie für Platzhaltername "flowers_train*" ein, um alle Trainingsdateien im Verzeichnis auszuwählen.

    4. Vollständiger GCS-Pfad wird unten angezeigt: "gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_train*".

  2. Wählen Sie im Bereich Validierungsdaten die Validierungsdaten für das Beispiel-Dataset aus, das in unserem öffentlichen Cloud Storage-Bucket gehostet wird:

    1. Wählen Sie Mehrere in einem Cloud Storage-Verzeichnis gespeicherte Dateien verwenden aus.

    2. Geben Sie Folgendes für den Verzeichnispfad ein: "cloud-samples-data/ai-platform/built-in/image/flowers/".

    3. Geben Sie für Platzhaltername "flowers_validation*" ein, um alle Validierungsdateien im Verzeichnis auszuwählen.

    4. Der Vollständige GCS-Pfad wird unten angezeigt: "gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_validation*".

  3. Geben Sie das Ausgabeverzeichnis in Ihrem Cloud Storage-Bucket an, in dem AI Platform Training Ihr trainiertes Modell, Prüfpunkte und andere Ausgaben des Trainingsjobs speichern soll. Sie können den genauen Pfad in Ihrem Bucket eingeben oder den Pfad über die Schaltfläche Durchsuchen auswählen.

gcloud

Richten Sie Umgebungsvariablen für Ihre Projekt-ID, Ihren Cloud Storage-Bucket, den Cloud Storage-Pfad zu den Trainingsdaten und den ausgewählten Algorithmus ein.

Die integrierten Algorithmen von AI Platform Training befinden sich in Docker-Containern, die in Container Registry gehostet werden.

PROJECT_ID="YOUR_PROJECT_ID"
BUCKET_NAME="YOUR_BUCKET_NAME"
REGION="us-central1"

gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Set paths to the training and validation data.
TRAINING_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_train*"
VALIDATION_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_validation*"

# Specify the Docker container for your built-in algorithm selection.
IMAGE_URI="gcr.io/cloud-ml-algos/image_classification:latest"

Trainingsjob senden

Zum Senden eines Jobs müssen Sie sowohl für das Training als auch den Algorithmus zur Bildklassifizierung einige grundlegende Argumente angeben.

Allgemeine Argumente für den Trainingsjob:

Argumente für Trainingsjobs
Argument Beschreibung
job-id Eindeutige ID für den Trainingsjob; anhand dieser ID können Sie nach dem Senden des Trainingsjobs nach Logs zu seinem Status suchen.
job-dir Cloud Storage-Pfad, in dem AI Platform Training nach Abschluss eines erfolgreichen Trainingsjobs die Trainingsdateien speichert.
scale-tier Gibt Maschinentypen für das Training an. Verwenden Sie BASIC, um eine Konfiguration mit nur einer Maschine auszuwählen.
master-image-uri Container Registry-URI zur Angabe des Docker-Containers, der für den Trainingsjob genutzt werden soll. Verwenden Sie den Container für den integrierten Algorithmus zur Bildklassifizierung, der zuvor als IMAGE_URI definiert wurde.
region Geben Sie die verfügbare Region an, in der Ihr Trainingsjob ausgeführt werden soll. In dieser Anleitung können Sie die Region us-central1 verwenden.

Spezifische Argumente für den integrierten Algorithmus zur Bildklassifizierung:

Algorithmusargumente
Argument Beschreibung
training_data_path Pfad zu einem TFRecord-Pfadmuster, das für das Training verwendet wird.
validation_data_path Pfad zu einem TFRecord-Pfadmuster, das für die Validierung verwendet wird.
pretrained_checkpoint_path Pfad vortrainierter Prüfpunkte. Sie können einige veröffentlichte Prüfpunkte verwenden.
num_classes Die Anzahl der Klassen in den Trainings-/Validierungsdaten.
max_steps Die Anzahl der Schritte, die der Trainingsjob ausführen soll.
train_batch_size Die Anzahl der Bilder, die pro Trainingsschritt verwendet werden sollen.
num_eval_images Die Gesamtzahl der Bilder, die für die Bewertung verwendet werden.
Wenn hier 0 steht, werden alle Bilder in validation_data_path verwendet.
learning_rate_decay_type Die Methode, mit der die Lernrate während des Trainings abnimmt.
warmup_learning_rate Die Lernrate zu Beginn der Aufwärmphase.
warmup_steps Die Anzahl der Schritte, die während der Aufwärmphase ausgeführt werden sollen, oder die Dauer der Aufwärmphase in Schritten. Der Trainingsjob verwendet während der Aufwärmphase warmup_learning_rate. Nach der Aufwärmphase wird für den Trainingsjob initial_learning_rate verwendet.
initial_learning_rate Die anfängliche Lernrate nach Abschluss der Aufwärmphase.
stepwise_learning_rate_steps Die Schritte zum Verringern/Ändern der Lernraten für den Typ der schrittweisen Verringerung der Lernrate.
Beispiel: "100,200" bedeutet, dass sich die Lernrate (in Bezug auf stepwise_learning_rate_levels) in Schritt 100 und Schritt 200 ändert. Beachten Sie, dass dies nur dann berücksichtigt wird, wenn learning_rate_decay_type auf "stepwise" eingestellt ist.
stepwise_learning_rate_levels Der Lernratenwert jedes Schritts für den Typ der schrittweisen Verringerung der Lernrate. Beachten Sie, dass dies nur dann berücksichtigt wird, wenn learning_rate_decay_type auf "stepwise" eingestellt ist.
image_size Die für das Training verwendete Bildgröße (Breite und Höhe).
optimizer_type Das für das Training verwendete Optimierungstool. Dies sollte einer der folgenden Werte sein:
{momentum, adam, rmsprop}.
optimizer_arguments Die Argumente für das Optimierungstool. Es ist eine durch Kommas getrennte Liste von "Name=Wert"-Paaren. Sie muss mit optimizer_type kompatibel sein. Beispiele:
  • Für das Momentum-Optimierungstool wird momentum=0.9 akzeptiert. Weitere Informationen finden Sie unter tf.train.MomentumOptimizer.
  • Beim Adam-Optimierungstool ist beta1=0.9,beta2=0.999 möglich. Weitere Informationen finden Sie unter tf.train.AdamOptimizer.
  • Beim RMSProp-Optimierungstool ist decay=0.9,momentum=0.1,epsilon=1e-10 möglich. Weitere Informationen finden Sie unter RMSPropOptimizer.
model_type Der Modellarchitekturtyp, der zum Trainieren von Modellen verwendet wird. Dieser kann einer der folgenden sein:
  • resnet-(18|34|50|101|152|200)
  • efficientnet-(b0|b1|b2|b3|b4|b5|b6|b7)
label_smoothing Label-Glättungsparameter, der in softmax_cross_entropy verwendet wird.
weight_decay Gewichtsabnahme-Koeffizient für die L2-Regularisierung. loss = cross_entropy + params['weight_decay'] * l2_loss

Eine ausführliche Liste aller anderen Flags für den Algorithmus zur Bildklassifizierung finden Sie in der Referenz zur integrierten Bildklassifikation.

Console

Algorithmusargumente

Geben Sie im ersten Teil des Tabs Algorithmusargumente die folgenden Werte ein:

  • Anzahl der Klassen: 5
  • Max. Schritte: 15.000
  • Batchgröße für Training: 128
  • Anzahl der Bewertungsbilder: 1

Gehen Sie im Bereich Modell des Tabs Algorithmusargumente so vor:

  1. Wählen Sie als Modelltyp Efficientnet-b4 aus.
  2. Lassen Sie Vortrainierter Prüfpunktpfad leer.
  3. Lassen Sie bei Label-Glättung und Gewichtsabnahme die Standardwerte unverändert.

Jobeinstellungen

Auf dem Tab Jobeinstellungen:

  1. Geben Sie eine eindeutige Job-ID ein, z. B. "image_classification_example".
  2. Geben Sie eine verfügbare Region wie "us-central1" ein.
  3. Wählen Sie "CUSTOM" als Skalierungsstufe aus, um Maschinentypen auszuwählen. Ein Bereich für die Benutzerdefinierte Clusterspezifikation wird angezeigt.
    1. Wählen Sie für Master-Typ complex_model_m aus.
    2. Wählen Sie für Worker-Typ cloud_tpu aus. Die Anzahl der Worker ist standardmäßig auf 1 gesetzt.

Klicken Sie auf Fertig, um den Trainingsjob zu senden.

gcloud

  1. Richten Sie alle Argumente für den Trainingsjob und den Algorithmus ein, bevor Sie den Job mit gcloud senden:

    DATASET_NAME="flowers"
    ALGORITHM="image_classification"
    MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_model"
    
    # Give a unique name to your training job.
    DATE="$(date '+%Y%m%d_%H%M%S')"
    JOB_ID="${MODEL_NAME}_${DATE}"
    
    # Make sure you have access to this Cloud Storage bucket.
    JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"
    
  2. Senden Sie den Job:

    gcloud ai-platform jobs submit training $JOB_ID \
      --region=$REGION \
      --config=config.yaml \
      --master-image-uri=$IMAGE_URI \
      -- \
      --training_data_path=$TRAINING_DATA_PATH \
      --validation_data_path=$VALIDATION_DATA_PATH \
      --job-dir=$JOB_DIR \
      --max_steps=30000 \
      --train_batch_size=128 \
      --num_classes=5 \
      --num_eval_images=100 \
      --initial_learning_rate=0.128 \
      --warmup_steps=1000 \
      --model_type='efficientnet-b4'
    

  3. Nachdem der Job gesendet wurde, können Sie die Logs mit folgenden gcloud-Befehlen aufrufen:

    gcloud ai-platform jobs describe $JOB_ID
    gcloud ai-platform jobs stream-logs $JOB_ID
    

Struktur des Jobverzeichnisses

Nach erfolgreicher Ausführung eines Trainingsjobs erstellt AI Platform Training ein trainiertes Modell sowie einige andere Artefakte in Ihrem Cloud Storage-Bucket. Ihr JOB_DIR hat folgende Verzeichnisstruktur:

  • model/ (TensorFlow SavedModel-Verzeichnis, das auch die Datei deployment_config.yaml enthält)
    • saved_model.pb
    • deployment_config.yaml
  • eval/
    • events.out.tfevents.[timestamp].cmle-training-[timestamp]
    • events.out.tfevents...
    • ...
  • Variablen/
    • variables.data-00000-of-00001
    • variables.index

Das Jobverzeichnis enthält auch verschiedene Modellprüfpunktdateien.

Bestätigen Sie, dass die Verzeichnisstruktur in Ihrem JOB_DIR hiermit übereinstimmt:

gsutil ls -a $JOB_DIR/*

Trainiertes Modell bereitstellen

AI Platform Training verwaltet Ihre trainierten Modelle mithilfe von model- und model. Ein AI Platform Training-Modell ist ein Container für die Versionen Ihres Modells für maschinelles Lernen.

Zur Bereitstellung eines Modells legen Sie eine Modellressource in AI Platform Training an, erstellen eine Version dieses Modells und rufen dann mithilfe des Modells und der Version Onlinevorhersagen ab.

Weitere Informationen zum Bereitstellen von Modellen in AI Platform Training finden Sie unter TensorFlow-Modell bereitstellen.

Console

  1. Auf der Seite Jobs sind alle Trainingsjobs aufgelistet. Klicken Sie auf den Namen des gerade gesendeten Trainingsjobs ("image_classification" oder den von Ihnen verwendeten Jobnamen).

  2. Auf der Seite Jobdetails sehen Sie den allgemeinen Fortschritt Ihres Jobs. Sie können auch auf Logs ansehen klicken, um eine detailliertere Ansicht des Fortschritts aufzurufen.

  3. Wenn die Jobausführung erfolgreich war, wird oben die Schaltfläche Modell bereitstellen eingeblendet. Klicken Sie auf Modell bereitstellen.

  4. Wählen Sie Als neues Modell bereitstellen aus und geben Sie einen Modellnamen ein, z. B. "algorithms_image_classification_model". Klicken Sie anschließend auf Bestätigen.

  5. Geben Sie auf der Seite Version erstellen einen Versionsnamen wie "v1" ein und übernehmen Sie für alle anderen Felder die Standardeinstellungen. Klicken Sie auf Speichern.

gcloud

Beim Training mit dem integrierten Algorithmus zur Bildklassifizierung wird die Datei deployment_config.yaml erstellt. Diese Datei vereinfacht das Bereitstellen Ihres Modells für Vorhersagen in AI Platform Training.

  1. Kopieren Sie die Datei in Ihr lokales Verzeichnis und rufen Sie ihren Inhalt auf:

    gsutil cp $JOB_DIR/model/deployment_config.yaml .
    cat deployment_config.yaml
    

    Ihre deployment_config.yaml-Datei sollte in etwa so aussehen:

    deploymentUri: gs://BUCKET_NAME/algorithms_training/flowers_image_classification/model
    framework: TENSORFLOW
    labels:
      global_step: '1000'
      job_id: flowers_image_classification_20190227060114
    runtimeVersion: '1.14'
    
  2. Erstellen Sie das Modell und die Version in AI Platform Training:

    gcloud ai-platform models create $MODEL_NAME --regions $REGION
    
    # Create a model and a version using the file above.
    VERSION_NAME="v_${DATE}"
    
    gcloud ai-platform versions create $VERSION_NAME \
      --model $MODEL_NAME \
      --config deployment_config.yaml
    

    Das Erstellen der Version dauert einige Minuten.

Onlinevorhersagen abrufen

Wenn Sie Vorhersagen anfordern, müssen die Eingabedaten als JSON formatiert sein.

  1. Laden Sie die Trainingsartefaktdateien herunter:

    gsutil cp $JOB_DIR/artifacts/* .
    
  2. Bereiten Sie die Vorhersageeingabe für ein Bild vor.

    Zum Senden einer Onlinevorhersageanfrage mit Google Cloud CLI, wie in diesem Beispiel, schreiben Sie jede Instanz in eine eigene Zeile in einer durch Zeilenumbruch getrennten JSON-Datei.

    Führen Sie die folgenden Befehle in Ihrem Terminal aus, um eine Eingabe für eine einzelne Instanz zu erstellen, die Sie an AI Platform Prediction senden können:

    Das folgende Python-Skript codiert ein einzelnes Bild mit base64, formatiert es für die Vorhersage, fügt einen Instanzschlüssel hinzu und schreibt das Ergebnis in eine Datei mit dem Namen prediction_instances.json:

    import json
    import base64
    import tensorflow as tf
    
    IMAGE_URI='gs://cloud-samples-data/ai-platform/built-in/image/tutorial_examples/daisy.jpg'
    
    with tf.gfile.Open(IMAGE_URI, 'rb') as image_file:
      encoded_string = base64.b64encode(image_file.read()).decode('utf-8')
    
    image_bytes = {'b64': str(encoded_string)}
    instances = {'image_bytes': image_bytes, 'key': '1'}
    with open("prediction_instances.json","w") as f:
      f.write(json.dumps(instances))
    
  3. Senden Sie die Vorhersageanfrage:

    gcloud ai-platform predict --model $MODEL_NAME \
     --version $VERSION_NAME \
     --json-instances prediction_instances.json
    

Höchstwahrscheinlich enthält die Vorhersageausgabe die Klasse daisy, die angibt, dass das bereitgestellte Modell das Eingabebild als Gänseblümchen klassifiziert hat. (Da das Training nicht deterministisch ist, kann das Modell abweichen.)

Über die Daten

Das in diesem Beispiel für das Training verwendete Dataset "Blumen" wird vom TensorFlow-Team bereitgestellt.

Nächste Schritte