Tabellarischer Workflow für End-to-End-AutoML

Dieses Dokument bietet eine Übersicht über die End-to-End-AutoML-Pipeline und -Komponenten. Informationen zum Trainieren eines Modells mit End-to-End-AutoML finden Sie unter Modell mit End-to-End-AutoML trainieren.

Tabellarischer Workflow für End-to-End-AutoML ist eine vollständige AutoML-Pipeline für Klassifizierungs- und Regressionsaufgaben. Sie ähnelt der AutoML API, Sie können jedoch auswählen, was Sie steuern möchten und was automatisiert werden soll. Statt Steuerelemente für die gesamte Pipeline haben Sie Steuerelemente für jeden Schritt in der Pipeline. Folgende Steuerelemente der Pipeline sind verfügbar:

  • Datenaufteilung
  • Feature Engineering
  • Architektursuche
  • Modelltraining
  • Modellsortierung
  • Modelldestillation

Vorteile

Der tabellarische Workflow für End-to-End-AutoML bietet folgende Vorteile:

  • Unterstützt große Datasets mit mehreren TB und bis zu 1.000 Spalten.
  • Ermöglicht die Verbesserung der Stabilität und niedrigere Trainingszeit, indem der Suchbereich der Architekturtypen begrenzt wird oder die Architektursuche übersprungen wird.
  • Ermöglicht die Verbesserung der Trainingsgeschwindigkeit durch manuelle Auswahl der Hardware für das Training und die Architektursuche.
  • Ermöglicht die Reduzierung der Modellgröße und die Verbesserung der Latenz mit der Destillation oder durch Ändern der Ensemblegröße.
  • Jede AutoML-Komponente kann in einer leistungsstarken Benutzeroberfläche für Pipelinediagramme überprüft werden, auf der Sie die transformierten Datentabellen, bewerteten Modellarchitekturen und viele weitere Details sehen können.
  • AutoML-Komponenten bieten erweiterte Flexibilität und Transparenz. So können Sie beispielsweise Parameter anpassen, Hardware auswählen, den Prozessstatus und Logs aufrufen und vieles mehr.

End-to-End-AutoML in Vertex AI Pipelines

Tabellarischer Workflow für End-to-End-AutoML ist eine verwaltete Instanz von Vertex AI Pipelines.

Vertex AI Pipelines ist ein serverloser Dienst, der Kubeflow-Pipelines ausführt. Mithilfe von Pipelines können Sie Ihre Aufgaben für maschinelles Lernen und die Datenvorbereitung automatisieren und überwachen. Jeder Schritt in einer Pipeline führt einen Teil des Workflows der Pipeline aus. Eine Pipeline kann beispielsweise Schritte zum Aufteilen von Daten, zum Transformieren von Datentypen und zum Trainieren eines Modells enthalten. Da Schritte Instanzen von Pipeline-Komponenten sind, haben Schritte Eingaben, Ausgaben und ein Container-Image. Schritteingaben können aus den Eingaben der Pipeline festgelegt werden oder von der Ausgabe anderer Schritte in dieser Pipeline abhängen. Diese Abhängigkeiten definieren den Workflow der Pipeline als gerichtetes azyklisches Diagramm.

Pipeline und Komponenten – Übersicht

Das folgende Diagramm zeigt die Modellierungspipeline für den tabellarischen Workflow für End-to-End-AutoML:

Pipeline für End-to-End-AutoML Tables 

Es gibt folgende Pipelinekomponenten:

  1. feature-transform-engine: Feature Engineering durchführen. Weitere Informationen finden Sie unter Feature Transform Engine.
  2. split-materialized-data: Materialisierte Daten in ein Trainings-Dataset, ein Bewertungs-Dataset und ein Test-Dataset aufteilen.

    Eingabe:

    • Materialisierte Daten materialized_data.

    Ausgabe:

    • Materialisierte Trainingsaufteilung materialized_train_split.
    • Materialisierte Bewertungsaufteilung materialized_eval_split.
    • Materialisiertes Test-Dataset materialized_test_split.
  3. merge-materialized-splits: Die materialisierte Bewertungsaufteilung und die materialisierte Trainingsaufteilung zusammenführen.
  4. automl-tabular-stage-1-tuning: Eine Modellarchitektur durchführen und Hyperparameter abstimmen.

    • Eine Architektur wird durch eine Reihe von Hyperparametern definiert.
    • Hyperparameter enthalten den Modelltyp und die Modellparameter.
    • Modelltypen sind neuronale Netzwerke und Boosted Trees.
    • Für jede berücksichtigte Architektur wird ein Modell trainiert.
  5. automl-tabular-cv-trainer: Architekturen durch Trainieren von Modellen an verschiedenen Stellen der Eingabedaten kreuzvalidieren.

    • Es werden diejenigen Architekturen berücksichtigt, die die besten Ergebnisse im vorherigen Schritt lieferten.
    • Etwa zehn beste Architekturen werden ausgewählt. Die genaue Anzahl wird durch das Trainingsbudget definiert.
  6. automl-tabular-ensemble: Die besten Architekturen zum Erzeugen eines endgültigen Modells zusammensetzen.

    • Das folgende Diagramm ist eine Abbildung der K-Fold-Kreuzvalidierung mit Bagging.

    Bagging-Ensemble 

  7. condition-is-distill: Optional. Eine kleinere Version des Ensemble-Modells erstellen.

    • Ein kleineres Modell reduziert die Latenz und die Kosten für Vorhersagen.
  8. automl-tabular-infra-validator: Validieren, ob das trainierte Modell ein gültiges Modell ist.

  9. model-upload: Das Modell hochladen.

  10. condition-is-evaluationOptional. Verwenden Sie das Test-Dataset, um Bewertungsmesswerte zu berechnen.

Nächste Schritte