Tabellarischer Workflow für Prognosen

Dieses Dokument bietet eine Übersicht über die Pipeline und Komponenten des tabellarischen Workflows für Prognosen. Informationen zum Trainieren eines Modells finden Sie unter Modell mit einem tabellarischen Workflow für Prognosen trainieren .

Der tabellarische Workflow für Prognosen ist die vollständige Pipeline für Prognoseaufgaben. Sie ähnelt der AutoML API, Sie können jedoch auswählen, was Sie steuern möchten und was automatisiert werden soll. Statt Steuerelemente für die gesamte Pipeline haben Sie Steuerelemente für jeden Schritt in der Pipeline. Folgende Steuerelemente der Pipeline sind verfügbar:

  • Datenaufteilung
  • Feature Engineering
  • Architektursuche
  • Modelltraining
  • Modellsortierung

Vorteile

Hier einige der Vorteile des tabellarischen Workflows für Prognosen:

  • Unterstützt große Datasets mit bis zu 1 TB und bis zu 200 Spalten.
  • Ermöglicht die Verbesserung der Stabilität und niedrigere Trainingszeit, indem der Suchbereich der Architekturtypen begrenzt wird oder die Architektursuche übersprungen wird.
  • Ermöglicht die Verbesserung der Trainingsgeschwindigkeit durch manuelle Auswahl der Hardware für das Training und die Architektursuche.
  • Bei einigen Modelltrainingsmethoden können Sie die Modellgröße verringern und die Latenz verbessern, indem Sie die Ensemblegröße ändern.
  • Jede Komponente kann in einer leistungsstarken Benutzeroberfläche für Pipelinediagramme überprüft werden, auf der Sie die transformierten Datentabellen, bewerteten Modellarchitekturen und viele weitere Details sehen können.
  • Alle Komponenten bieten erweiterte Flexibilität und Transparenz. So können Sie beispielsweise Parameter anpassen, Hardware auswählen, den Prozessstatus und Logs aufrufen und vieles mehr.

Prognosen in Vertex AI Pipelines

Tabellarischer Workflow für Prognosen ist eine verwaltete Instanz von Vertex AI Pipelines.

Vertex AI Pipelines ist ein serverloser Dienst, der Kubeflow-Pipelines ausführt. Mithilfe von Pipelines können Sie Ihre Aufgaben für maschinelles Lernen und die Datenvorbereitung automatisieren und überwachen. Jeder Schritt in einer Pipeline führt einen Teil des Workflows der Pipeline aus. Eine Pipeline kann beispielsweise Schritte zum Aufteilen von Daten, zum Transformieren von Datentypen und zum Trainieren eines Modells enthalten. Da Schritte Instanzen von Pipeline-Komponenten sind, haben Schritte Eingaben, Ausgaben und ein Container-Image. Schritteingaben können aus den Eingaben der Pipeline festgelegt werden oder von der Ausgabe anderer Schritte in dieser Pipeline abhängen. Diese Abhängigkeiten definieren den Workflow der Pipeline als gerichtetes azyklisches Diagramm.

Pipeline und Komponenten – Übersicht

Das folgende Diagramm zeigt die Modellierungspipeline für den tabellarischen Workflow für Prognosen:

Pipeline für Prognosen 

Es gibt folgende Pipelinekomponenten:

  1. feature-transform-engine: Feature Engineering durchführen. Weitere Informationen finden Sie unter Feature Transform Engine.
  2. training-configurator-and-validator: Die Trainingskonfiguration validieren und Trainingsmetadaten generieren.

    Eingabe:

    • instance_schema: Instanzschema in der OpenAPI-Spezifikation, die die Datentypen der Vorhersagedaten beschreibt.
    • dataset_stats: Statistiken, die das Roh-Dataset beschreiben. Beispielsweise gibt dataset_stats die Anzahl der Zeilen im Dataset an.
    • training_schema: Trainingsdatenschema in der OpenAPI-Spezifikation, das die Datentypen der Trainingsdaten beschreibt.
  3. split-materialized-data: Materialisierte Daten in ein Trainings-Dataset, ein Bewertungs-Dataset und ein Test-Dataset aufteilen.

    Eingang:

    • materialized_data: Materialisierte Daten.

    Ausgabe:

    • materialized_train_split: Trainings-Dataset der materialisierten Daten.
    • materialized_eval_split: Bewertungs-Dataset der materialisierten Daten.
    • materialized_test_split: Test-Dataset der materialisierten Daten.
  4. calculate-training-parameters-2: Berechnen Sie die erwartete Laufzeitdauer für automl-forecasting-stage-1-tuner.

  5. get-Hyperparameter-tuning-results: Optional: Wenn Sie die Pipeline zum Überspringen der Architektursuche konfiguriert haben, laden Sie die Hyperparameter-Abstimmungsergebnisse aus einer vorherigen Pipeline.

  6. Führen Sie eine Modellarchitektursuche durch und optimieren Sie Hyperparameter (automl-forecasting-stage-1-tuner). Sie können auch die Ergebnisse der Hyperparameter-Abstimmung aus einer vorherigen Pipelineausführung (automl-forecasting-stage-2-tuner) verwenden.

    • Eine Architektur wird durch eine Reihe von Hyperparametern definiert.
    • Hyperparameter enthalten den Modelltyp und die Modellparameter.
    • Modelltypen sind neuronale Netzwerke und Boosted Trees.
    • Für jede berücksichtigte Architektur wird ein Modell trainiert.

    Eingabe:

    • materialized_train_split: Trainings-Dataset der materialisierten Daten.
    • materialized_eval_split: Bewertungs-Dataset der materialisierten Daten.
    • artifact: Ergebnisse der Hyperparameter-Abstimmung einer vorherigen Pipelineausführung. Dieses Artefakt ist nur eine Eingabe, wenn Sie die Pipeline so konfiguriert haben, dass die Architektursuche übersprungen wird.

    Ausgabe:

    • tuning_result_output: Ausgabe der Feinabstimmung.
  7. get-prediction-image-uri-2: Der richtige URI des Vorhersagebildes wird anhand des Modelltyps erstellt.

  8. automl-forecasting-ensemble-2: Die besten Architekturen zum Erzeugen eines endgültigen Modells zusammensetzen.

    Eingang:

    • tuning_result_output: Ausgabe der Feinabstimmung.

    Ausgabe:

    • unmanaged_container_model: Ausgabemodell.
  9. model-upload-2: Das Modell hochladen.

    Eingang:

    • unmanaged_container_model: Ausgabemodell.

    Ausgabe:

    • model: Vertex AI-Modell.
  10. should_run_model_evaluationOptional: Verwenden Sie das Test-Dataset, um Bewertungsmesswerte zu berechnen.

Nächste Schritte