Modelle und Jobs verwalten

Wenn Sie Modelle bereitstellen und trainieren sowie Vorhersagen abrufen, müssen Sie Ressourcen auf der Google Cloud Platform verwalten. Auf dieser Seite wird beschrieben, wie Sie mit Modellen, Versionen und Jobs arbeiten.

Namen für Modelle, Versionen und Jobs erstellen

Sie müssen für alle erstellten Modelle, Versionen und Jobs Namen angeben, wobei die Benennungsregeln für alle drei Arten von Ressourcen gleich sind. Für jeden Namen gilt:

  • Es dürfen nur Buchstaben, Zahlen und Unterstriche verwendet werden.
  • Die Groß-/Kleinschreibung ist zu beachten.
  • Muss mit einem Buchstaben beginnen.
  • Er darf höchstens 128 Zeichen lang sein.
  • Er darf nicht mehrfach innerhalb seines Namespace vergeben sein (innerhalb des Projekts bei Modellen und Jobs und innerhalb des übergeordneten Modells bei Versionen).

Erstellen Sie Namen, die in Ressourcenlisten wie Joblogs leicht zu unterscheiden sind. Hier einige Vorschläge:

  • Verwenden Sie bei allen Jobs für dasselbe Modell den Modellnamen in Kombination mit einem Jobindex. Der Zeitstempel der Joberstellung ist hierfür gut geeignet.
  • Benennen Sie Modelle so, dass sie leicht anhand des verwendeten Datasets zu erkennen sind. Zum Beispiel ist census_wide_deep normalerweise besser als my_new_model.
  • Versionen sollten möglichst leicht lesbar sein. Verwenden Sie also statt eines Zeitstempels oder eines ähnlichen Einzelwerts einfache Versionsbezeichnungen wie v1 oder v0.2.4.

Modelle verwalten

Die Modellressourcen in AI Platform sind logische Container für individuelle Implementierungen der Modelle für maschinelles Lernen. Die Arbeit mit diesen Ressourcen gestaltet sich am einfachsten, da sie keine komplexen Vorgänge oder zusätzliche Ressourcen aufweisen, die zugewiesen oder verwaltet werden müssen.

In der folgenden Tabelle werden die Modellvorgänge zusammengefasst und die Schnittstellen aufgeführt, mit denen Sie die Vorgänge ausführen können:

Aktion Schnittstellen Hinweise
create projects.models.create
gcloud ai-platform models create
Modell erstellen auf der Seite AI Platform-Modelle.
delete projects.models.delete

Das Löschen eines Modells ist ein lang andauernder Vorgang.

Damit ein Modell gelöscht werden kann, dürfen ihm keine Versionen zugeordnet sein.

gcloud ai-platform models delete
Löschen in der Liste Modelle oder auf der Seite Modelldetails.
get projects.models.get

Die abgerufenen Informationen sind in der Referenz zur Ressource Model beschrieben.

gcloud ai-platform models describe
Seite Modelldetails (Zugang über einen Link in der Liste Modelle).
list projects.models.list
gcloud ai-platform models list
Seite AI Platform-Modelle.

Versionen verwalten

Versionen sind spezifische Iterationen von Modellen. Der Kern einer Modellversion ist ein TensorFlow-SavedModel.

In der folgenden Tabelle werden die Versionsvorgänge zusammengefasst und die Schnittstellen aufgeführt, mit denen Sie die Vorgänge ausführen können:

Aktion Schnittstellen Hinweise
create projects.models.versions.create

Sie erstellen eine Version, indem Sie ein SavedModel in AI Platform bereitstellen. Weitere Informationen finden Sie im Leitfaden zur Modellbereitstellung.

gcloud ai-platform versions create
Version erstellen auf der Seite Modelldetails (Zugang über einen Link in der Liste Modelle).
delete projects.models.versions.delete

Das Löschen einer Version ist ein lang andauernder Vorgang.

Sie können die Standardversion eines Modells nur dann löschen, wenn sie die einzige dem Modell zugeordnete Version ist.

gcloud ai-platform versions delete
Löschen in der Liste der Versionen auf der Seite "Modelldetails".
get projects.models.versions.get

Die abgerufenen Informationen sind in der Referenz zur Ressource Version beschrieben.

gcloud ai-platform versions describe
Seite Versionsdetails (Zugang über einen Link in der Liste Versionen auf der Seite Modelldetails).
list projects.models.versions.list
gcloud ai-platform versions list
Liste der Versionen auf der Seite "Modelldetails".
Standard festlegen projects.models.versions.setDefault

Dies ist die einzige Möglichkeit, einem Modell eine neue Standardversion zuzuordnen. Nach der ersten Version werden weitere erstellte Versionen nicht automatisch zur neuen Standardversion.

gcloud ai-platform versions set-default
Als Standard festlegen in der Liste der Versionen auf der Seite "Modelldetails"

Jobs verwalten

AI Platform unterstützt zwei Arten von Jobs: Trainings- und Batchvorhersagejobs. Die Details der einzelnen Jobs unterscheiden sich, der grundlegende Vorgang ist jedoch derselbe.

In der folgenden Tabelle werden die Jobvorgänge zusammengefasst und die Schnittstellen aufgeführt, mit denen Sie die Vorgänge ausführen können:

Aktion Schnittstellen Hinweise
create projects.jobs.create

Sie finden ausführliche Informationen zum Erstellen von Jobs unter Training und Batchvorhersage.

gcloud ai-platform jobs submit training

gcloud ai-platform jobs submit prediction

Keine Konsolenimplementierung
cancel projects.jobs.cancel

Bricht einen laufenden Job ab

gcloud ai-platform jobs cancel

Beenden auf der Seite "Jobdetails"
get projects.jobs.get Die abgerufenen Informationen sind in der Referenz zur Ressource Jobs beschrieben.

gcloud ai-platform jobs describe

Seite Jobdetails (Zugang über einen Link in der Liste Jobs).
list projects.jobs.list

gcloud ai-platform jobs list

Liste Jobs.

Umgang mit asynchronen Vorgängen

Die meisten AI Platform-Vorgänge zur Ressourcenverwaltung geben so schnell wie möglich eine vollständige Antwort zurück. Allerdings gibt es zwei Arten von asynchronen Vorgängen, über die Sie Bescheid wissen sollten: Jobs und Vorgänge mit langer Laufzeit.

Wenn Sie einen asynchronen Vorgang starten, möchten Sie in der Regel wissen, wann dieser abgeschlossen ist. Das Abrufen des Status gestaltet sich bei Jobs und Vorgängen mit langer Ausführungszeit anders als gewohnt.

Status eines Jobs abrufen

Sie können projects.jobs.get verwenden, um den Status eines Jobs abzurufen. Diese Methode wird auch als gcloud ai-platform jobs describe und auf der Seite Jobs in der Google Cloud Platform Console bereitgestellt. Unabhängig davon, wie Sie den Status abrufen, basieren die Informationen auf den Mitgliedern der Ressource "Job". Sie wissen, dass der Job abgeschlossen ist, wenn Job.state in der Antwort einem der folgenden Werte entspricht:

  • SUCCEEDED
  • FAILED
  • CANCELLED

Status eines Vorgangs mit langer Laufzeit abrufen

In AI Platform gibt es drei Vorgänge mit langer Laufzeit:

  • Erstellen einer Version
  • Löschen eines Modells
  • Löschen einer Version

Von den Vorgängen mit langer Laufzeit dürften nur Versionserstellungen viel Zeit in Anspruch nehmen. Modelle und Versionen werden normalerweise nahezu in Echtzeit gelöscht.

Wenn Sie eine Version über das Befehlszeilentool gcloud oder die GCP Console erstellen, werden Sie von der jeweiligen Schnittstelle automatisch über den Abschluss des Vorgangs informiert. Erfolgt die Versionserstellung mit der API, können Sie selbst den Status des Vorgangs verfolgen:

  1. Rufen Sie den vom Dienst zugewiesenen Vorgangsnamen aus dem Objekt Operation in der Antwort auf Ihren Aufruf von projects.models.versions.create ab. Der Schlüssel für den Namenswert lautet "name".

  2. Verwenden Sie projects.operations.get, um den Status der Operation periodisch abzufragen.

    1. Verwenden Sie den Vorgangsnamen aus dem ersten Schritt, um einen Namensstring nach folgendem Muster zu bilden:

      'projects/my_project/operations/operation_name'
      

      Die Antwortnachricht enthält das Objekt "Operation".

    2. Rufen Sie den Wert für den Schlüssel "done" ab. Dies ist ein boolescher Indikator für den Vorgangsabschluss. Wenn er als "true" ausgewertet wird, ist der Vorgang abgeschlossen.

  3. Das Objekt "Operation" enthält einen von zwei Schlüsseln für den Abschluss:

    • Der Schlüssel "response" liegt vor, wenn der Vorgang erfolgreich war. Sein Wert sollte "google.protobuf.Empty" lauten, da keine der AI Platform-Vorgänge mit langer Laufzeit über Antwortobjekte verfügen.

    • Der Schlüssel "error" liegt vor, wenn ein Fehler aufgetreten ist. Sein Wert ist das Objekt Status.

Weitere Informationen

Hat Ihnen diese Seite weitergeholfen? Teilen Sie uns Ihr Feedback mit:

Feedback geben zu...

AI Platform für TensorFlow