Flusso di lavoro tabulare per la previsione

Questo documento fornisce una panoramica del flusso di lavoro tabulare per la previsione pipeline e componenti. Per informazioni su come addestrare un modello, consulta Addestrare un modello con Flusso di lavoro tabulare per la previsione .

Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Configurazione di modelli

Vantaggi

Di seguito sono riportati alcuni dei vantaggi del flusso di lavoro tabulare per la previsione:

  • Supporta set di dati di grandi dimensioni con dimensioni fino a 1 TB e fino a 200 colonne.
  • Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Per alcuni metodi di addestramento dei modelli, ti consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'insieme.
  • Ogni componente può essere ispezionato in una potente interfaccia grafica delle pipeline che ti consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente ottiene maggiore flessibilità e trasparenza, come la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.

Previsioni su Vertex AI Pipelines

Il flusso di lavoro tabulare per la previsione è un'istanza gestita di Vertex AI Pipelines.

Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi usare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o dipendono dall'output di altri passaggi all'interno della pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.

Panoramica della pipeline e dei componenti

Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per la previsione:

Pipeline per la previsione 

I componenti della pipeline sono:

  1. feature-transform-engine: esegue il feature engineering. Per ulteriori dettagli, consulta Motore per la trasformazione delle funzionalità.
  2. training-configurator-and-validator: convalida la configurazione dell'addestramento e genera i relativi metadati.

    Ingresso:

    • instance_schema: schema di istanza nella specifica OpenAPI, che descrive i tipi di dati dei dati di previsione.
    • dataset_stats: statistiche che descrivono il set di dati non elaborato. Ad esempio, dataset_stats fornisce il numero di righe nel set di dati.
    • training_schema: schema dei dati di addestramento nella specifica OpenAPI, che descrive i tipi di dati di addestramento.
  3. split-materialized-data: suddividi i dati materializzati in un set di addestramento, un set di valutazione e un set di test.

    Ingresso:

    • materialized_data: dati materializzati.

    Output:

    • materialized_train_split: suddivisione materializzata dell'addestramento.
    • materialized_eval_split: suddivisione della valutazione materializzata.
    • materialized_test_split: set di test materializzato.
  4. calculate-training-parameters-2: calcola la durata del runtime prevista per automl-forecasting-stage-1-tuner.

  5. get-hyperparameter-tuning-results: get-hyperparameter-tuning-results: se hai configurato la pipeline in modo da ignorare la ricerca dell'architettura, carica i risultati dell'ottimizzazione degli iperparametri di un'esecuzione precedente della pipeline.

  6. Esegui la ricerca dell'architettura dei modelli e ottimizza gli iperparametri (automl-forecasting-stage-1-tuner) oppure utilizza i risultati dell'ottimizzazione degli iperparametri di una pipeline precedente (automl-forecasting-stage-2-tuner).

    • Un'architettura è definita da un insieme di iperparametri.
    • Gli iperparametri includono il tipo e i parametri del modello.
    • I tipi di modello considerati sono reti neurali e albero potenziato.
    • Viene addestrato un modello per ogni architettura considerata.

    Ingresso:

    • materialized_train_split: suddivisione materializzata dell'addestramento.
    • materialized_eval_split: suddivisione della valutazione materializzata.
    • artifact: risultati dell'ottimizzazione degli iperparametri di un'esecuzione precedente della pipeline. Questo artefatto è un input solo se hai configurato la pipeline in modo da ignorare la ricerca dell'architettura.

    Output:

    • tuning_result_output: ottimizzazione dell'output.
  7. get-prediction-image-uri-2: genera l'URI corretto dell'immagine di previsione in base al tipo di modello.

  8. automl-forecasting-ensemble-2: crea le architetture migliori per produrre un modello finale.

    Ingresso:

    • tuning_result_output: ottimizzazione dell'output.

    Output:

    • unmanaged_container_model: modello di output.
  9. model-upload-2 - Carica il modello.

    Ingresso:

    • unmanaged_container_model: modello di output.

    Output:

    • model: modello Vertex AI.
  10. should_run_model_evaluation - should_run_model_evaluation: utilizza il set di test per calcolare le metriche di valutazione.

Passaggi successivi