Questo documento fornisce una panoramica del flusso di lavoro tabulare per la previsione pipeline e componenti. Per informazioni su come addestrare un modello, consulta Addestrare un modello con Flusso di lavoro tabulare per la previsione .
Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Configurazione di modelli
Vantaggi
Di seguito sono riportati alcuni dei vantaggi del flusso di lavoro tabulare per la previsione:
- Supporta set di dati di grandi dimensioni con dimensioni fino a 1 TB e fino a 200 colonne.
- Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Per alcuni metodi di addestramento dei modelli, ti consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'insieme.
- Ogni componente può essere ispezionato in una potente interfaccia grafica delle pipeline che ti consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente ottiene maggiore flessibilità e trasparenza, come la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.
Previsioni su Vertex AI Pipelines
Il flusso di lavoro tabulare per la previsione è un'istanza gestita di Vertex AI Pipelines.
Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi usare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o dipendono dall'output di altri passaggi all'interno della pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.
Panoramica della pipeline e dei componenti
Il seguente diagramma mostra la pipeline di modellazione per il flusso di lavoro tabulare per la previsione:
I componenti della pipeline sono:
- feature-transform-engine: esegue il feature engineering. Per ulteriori dettagli, consulta Motore per la trasformazione delle funzionalità.
training-configurator-and-validator: convalida la configurazione dell'addestramento e genera i relativi metadati.
Ingresso:
instance_schema
: schema di istanza nella specifica OpenAPI, che descrive i tipi di dati dei dati di previsione.dataset_stats
: statistiche che descrivono il set di dati non elaborato. Ad esempio,dataset_stats
fornisce il numero di righe nel set di dati.training_schema
: schema dei dati di addestramento nella specifica OpenAPI, che descrive i tipi di dati di addestramento.
split-materialized-data: suddividi i dati materializzati in un set di addestramento, un set di valutazione e un set di test.
Ingresso:
materialized_data
: dati materializzati.
Output:
materialized_train_split
: suddivisione materializzata dell'addestramento.materialized_eval_split
: suddivisione della valutazione materializzata.materialized_test_split
: set di test materializzato.
calculate-training-parameters-2: calcola la durata del runtime prevista per automl-forecasting-stage-1-tuner.
get-hyperparameter-tuning-results: get-hyperparameter-tuning-results: se hai configurato la pipeline in modo da ignorare la ricerca dell'architettura, carica i risultati dell'ottimizzazione degli iperparametri di un'esecuzione precedente della pipeline.
Esegui la ricerca dell'architettura dei modelli e ottimizza gli iperparametri (automl-forecasting-stage-1-tuner) oppure utilizza i risultati dell'ottimizzazione degli iperparametri di una pipeline precedente (automl-forecasting-stage-2-tuner).
- Un'architettura è definita da un insieme di iperparametri.
- Gli iperparametri includono il tipo e i parametri del modello.
- I tipi di modello considerati sono reti neurali e albero potenziato.
- Viene addestrato un modello per ogni architettura considerata.
Ingresso:
materialized_train_split
: suddivisione materializzata dell'addestramento.materialized_eval_split
: suddivisione della valutazione materializzata.artifact
: risultati dell'ottimizzazione degli iperparametri di un'esecuzione precedente della pipeline. Questo artefatto è un input solo se hai configurato la pipeline in modo da ignorare la ricerca dell'architettura.
Output:
tuning_result_output
: ottimizzazione dell'output.
get-prediction-image-uri-2: genera l'URI corretto dell'immagine di previsione in base al tipo di modello.
automl-forecasting-ensemble-2: crea le architetture migliori per produrre un modello finale.
Ingresso:
tuning_result_output
: ottimizzazione dell'output.
Output:
unmanaged_container_model
: modello di output.
model-upload-2 - Carica il modello.
Ingresso:
unmanaged_container_model
: modello di output.
Output:
model
: modello Vertex AI.
should_run_model_evaluation - should_run_model_evaluation: utilizza il set di test per calcolare le metriche di valutazione.