Questo documento fornisce una panoramica della pipeline e dei componenti di AutoML end-to-end. Per scoprire come addestrare un modello con AutoML end-to-end, consulta Addestrare un modello con AutoML end-to-end.
Tabular Workflow for End-to-End AutoML è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Configurazione di modelli
- Distillazione del modello
Vantaggi
Di seguito sono riportati alcuni dei vantaggi di Tabular Workflow for End-to-End AutoML:
- Supporta set di dati di grandi dimensioni con più TB e fino a 1000 colonne.
- Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Consente di ridurre le dimensioni del modello e migliorare la latenza tramite la distillazione o modificando le dimensioni dell'insieme.
- Ogni componente AutoML può essere ispezionato in una potente interfaccia grafica delle pipeline che consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente AutoML ottiene maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.
AutoML end-to-end su Vertex AI Pipelines
Tabular Workflow for End-to-End AutoML è un'istanza gestita di Vertex AI Pipelines.
Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi usare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o dipendono dall'output di altri passaggi all'interno della pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.
Panoramica della pipeline e dei componenti
Il seguente diagramma mostra la pipeline di modellazione per Tabular Workflow for End-to-End AutoML:
I componenti della pipeline sono:
- feature-transform-engine: esegue il feature engineering. Per ulteriori dettagli, consulta Motore per la trasformazione delle funzionalità.
- split-materialized-data:
suddivide i dati materializzati in un set di addestramento, un set di valutazione e un set di test.
Ingresso:
- Dati materializzati
materialized_data
.
Output:
- Divisione materializzata dell'addestramento
materialized_train_split
. - Suddivisione di valutazione materializzata
materialized_eval_split
. - Set di test materializzato
materialized_test_split
.
- Dati materializzati
- merge-materialized-splits: unisce la suddivisione della valutazione materializzata e la suddivisione del treno materializzata.
automl-tabular-stage-1-tuner: esegui la ricerca dell'architettura dei modelli e ottimizza gli iperparametri.
- Un'architettura è definita da un insieme di iperparametri.
- Gli iperparametri includono il tipo e i parametri del modello.
- I tipi di modello considerati sono reti neurali e albero potenziato.
- Viene addestrato un modello per ogni architettura considerata.
automl-tabular-cv-trainer - Esegui la convalida incrociata delle architetture addestrando modelli su diverse pieghe dei dati di input.
- Le architetture considerate sono quelle che hanno fornito i risultati migliori nel passaggio precedente.
- Vengono selezionate circa dieci architetture migliori. Il numero esatto è definito dal budget per l'addestramento.
automl-tabular-ensemble - Definisci le architetture migliori per produrre un modello finale.
- Il seguente diagramma è un'illustrazione della convalida incrociata K-fold con raccoglimento:
condition-is-distill: facoltativo. Crea una versione più piccola del modello di insieme.
- Un modello più piccolo riduce la latenza e i costi di previsione.
automl-tabular-infra-validator: verifica se il modello addestrato è valido.
model-upload - Carica il modello.
condition-is-Evaluation: facoltativo. Utilizza il set di test per calcolare le metriche di valutazione.