Flusso di lavoro tabulare per AutoML end-to-end

Questo documento fornisce una panoramica della pipeline e dei componenti di AutoML end-to-end. Per scoprire come addestrare un modello con AutoML end-to-end, consulta Addestrare un modello con AutoML end-to-end.

Tabular Workflow for End-to-End AutoML è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Configurazione di modelli
  • Distillazione del modello

Vantaggi

Di seguito sono riportati alcuni dei vantaggi di Tabular Workflow for End-to-End AutoML:

  • Supporta set di dati di grandi dimensioni con più TB e fino a 1000 colonne.
  • Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Consente di ridurre le dimensioni del modello e migliorare la latenza tramite la distillazione o modificando le dimensioni dell'insieme.
  • Ogni componente AutoML può essere ispezionato in una potente interfaccia grafica delle pipeline che consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente AutoML ottiene maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.

AutoML end-to-end su Vertex AI Pipelines

Tabular Workflow for End-to-End AutoML è un'istanza gestita di Vertex AI Pipelines.

Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi usare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o dipendono dall'output di altri passaggi all'interno della pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.

Panoramica della pipeline e dei componenti

Il seguente diagramma mostra la pipeline di modellazione per Tabular Workflow for End-to-End AutoML:

Pipeline per tabelle AutoML end-to-end 

I componenti della pipeline sono:

  1. feature-transform-engine: esegue il feature engineering. Per ulteriori dettagli, consulta Motore per la trasformazione delle funzionalità.
  2. split-materialized-data: suddivide i dati materializzati in un set di addestramento, un set di valutazione e un set di test.

    Ingresso:

    • Dati materializzati materialized_data.

    Output:

    • Divisione materializzata dell'addestramento materialized_train_split.
    • Suddivisione di valutazione materializzata materialized_eval_split.
    • Set di test materializzato materialized_test_split.
  3. merge-materialized-splits: unisce la suddivisione della valutazione materializzata e la suddivisione del treno materializzata.
  4. automl-tabular-stage-1-tuner: esegui la ricerca dell'architettura dei modelli e ottimizza gli iperparametri.

    • Un'architettura è definita da un insieme di iperparametri.
    • Gli iperparametri includono il tipo e i parametri del modello.
    • I tipi di modello considerati sono reti neurali e albero potenziato.
    • Viene addestrato un modello per ogni architettura considerata.
  5. automl-tabular-cv-trainer - Esegui la convalida incrociata delle architetture addestrando modelli su diverse pieghe dei dati di input.

    • Le architetture considerate sono quelle che hanno fornito i risultati migliori nel passaggio precedente.
    • Vengono selezionate circa dieci architetture migliori. Il numero esatto è definito dal budget per l'addestramento.
  6. automl-tabular-ensemble - Definisci le architetture migliori per produrre un modello finale.

    • Il seguente diagramma è un'illustrazione della convalida incrociata K-fold con raccoglimento:

    ensemble di sacchetti 

  7. condition-is-distill: facoltativo. Crea una versione più piccola del modello di insieme.

    • Un modello più piccolo riduce la latenza e i costi di previsione.
  8. automl-tabular-infra-validator: verifica se il modello addestrato è valido.

  9. model-upload - Carica il modello.

  10. condition-is-Evaluation: facoltativo. Utilizza il set di test per calcolare le metriche di valutazione.

Passaggi successivi