Introduzione a Vertex AI Pipelines

Vertex AI Pipelines ti consente di automatizzare, monitorare e gestire la tua macchina di machine learning (ML) in modo serverless utilizzando le pipeline di ML per orchestrare i flussi di lavoro ML. Puoi eseguire pipeline ML definite in modalità batch Kubeflow Pipelines o TensorFlow Extended (TFX). Per scoprire come scegliere un framework definisci la pipeline ML, Interfacce per definire una pipeline.

In questa pagina viene fornita una panoramica di quanto segue:

Che cos'è una pipeline ML?

Una pipeline ML è una descrizione portabile ed estensibile di un flusso di lavoro MLOps come una serie di passaggi denominati attività della pipeline. Ogni attività esegue una specifica del flusso di lavoro per l'addestramento e/o il deployment di un modello ML.

Con le pipeline ML, puoi applicare strategie MLOps per automatizzare e monitorare e ripetibili nella pratica ML. Ad esempio, puoi riutilizzare una pipeline per riaddestrare continuamente un modello sulla base e i dati di produzione. Per ulteriori informazioni su MLOps in Vertex AI, consulta MLOps su Vertex AI.

Struttura di una pipeline ML

Una pipeline ML è un grafo diretto aciclico (DAG) di attività di pipeline containerizzate che sono interconnesse tramite dipendenze input-output. Puoi creare ogni attività in Python o come immagini container predefinite.

Puoi definire la pipeline come DAG utilizzando le pipeline Kubeflow o l'SDK TFX, compilalo nel relativo codice YAML per ed eseguire la pipeline. Per impostazione predefinita, le attività della pipeline vengono eseguite parallelo. Puoi collegare le attività per eseguirle in serie. Per saperne di più sulle attività della pipeline, consulta Attività di pipeline. Per ulteriori informazioni sul flusso di lavoro per la definizione, la compilazione e l'esecuzione consulta Ciclo di vita di una pipeline ML.

Attività e componenti della pipeline

Un'attività della pipeline è un'istanza di una componente pipeline con input specifici. Durante la definizione della tua pipeline ML, puoi interconnettere più attività per formare un DAG, gli output di un'attività della pipeline agli input per la successiva attività della pipeline del flusso di lavoro ML. Puoi anche utilizzare gli input per la pipeline ML come input per un'attività della pipeline.

Componente pipeline

Un componente della pipeline è un insieme autonomo di codice che esegue una fase di un flusso di lavoro ML, come la pre-elaborazione dei dati, l'addestramento del modello deployment del modello. Solitamente, un componente è costituito da:

  • Input: un componente potrebbe avere uno o più parametri e artefatti di input.

  • Output: ogni componente ha uno o più parametri o artefatti di output.

  • Logica: è il codice eseguibile del componente. Per containerizzati, la logica contiene anche la definizione dell'ambiente o dell'immagine container in cui viene eseguito il componente.

I componenti sono la base per definire le attività in una pipeline ML. Per definire per le attività della pipeline, puoi utilizzare i componenti della pipeline di Google Cloud predefiniti o creare componenti.

Componenti predefiniti

Utilizza i componenti predefiniti della pipeline di Google Cloud se vuoi usare le funzionalità di Vertex AI, come AutoML, nella tua pipeline. Scopri come utilizzare i componenti della pipeline di Google Cloud per definire una pipeline, consulta Creazione di una pipeline.

Componenti personalizzati

Puoi creare componenti personalizzati da utilizzare nella pipeline ML. Per ulteriori informazioni informazioni sulla creazione di componenti personalizzati, consulta Creare la tua pipeline componenti.

Per scoprire come creare componenti personalizzati di Kubeflow Pipelines, consulta la sezione "Pipelines con componenti leggeri basati sulle funzioni Python" blocco note Jupyter su GitHub. Per scoprire come creare file TFX personalizzati consulta il tutorial sul componente della funzione Python TFX nei tutorial su TensorFlow Extended in Production.

Attività pipeline

Un'attività della pipeline è la creazione di un'istanza di un componente della pipeline ed esegue una passaggio specifico del flusso di lavoro ML. Puoi creare attività della pipeline ML utilizzando in Python o come immagini container predefinite.

All'interno di un'attività, puoi sfruttare le funzionalità di calcolo on demand di Vertex AI con Kubernetes per eseguire il codice in modo scalabile o delegare il carico di lavoro a un altro come BigQuery, Dataflow Dataproc Serverless.

Ciclo di vita di una pipeline ML

Dalla definizione all'esecuzione e al monitoraggio, il ciclo di vita di una pipeline ML comprende le seguenti fasi generali:

  1. Definizione: anche il processo di definizione di una pipeline ML e le sue attività chiamata creazione di una pipeline. In questa fase, devi eseguire le seguenti operazioni: passaggi:

    1. Scegliere un framework ML: Vertex AI Pipelines supporta il ML pipeline definite utilizzando le pipeline TFX o Kubeflow il modello di machine learning. Per scoprire come scegliere un framework per creare la pipeline, consulta Interfacce per definire una pipeline.

    2. Definisci le attività della pipeline e configura la pipeline: per saperne di più, consulta Creare una pipeline.

  2. Compilazione: in questa fase, devi seguire questi passaggi:

    1. Genera la definizione della tua pipeline ML in un file YAML compilato per rappresentazione intermedia, che puoi usare per eseguire la pipeline ML.

    2. (Facoltativo) Puoi caricare il file YAML compilato come modello pipeline in un repository e riutilizzarlo per creare esecuzioni della pipeline ML.

  3. Esegui: crea un'istanza di esecuzione della pipeline ML utilizzando lo strumento YAML o un modello di pipeline. L'istanza di esecuzione di una pipeline definizione è chiamata esecuzione della pipeline.

    Puoi creare un'occorrenza una tantum dell'esecuzione di una pipeline o utilizzare il metodo API scheduler per creare esecuzioni pipeline ricorrenti dallo stesso definizione della pipeline ML. Puoi anche clonare l'esecuzione di una pipeline esistente. Per ulteriori informazioni su come scegliere un'interfaccia per eseguire una pipeline ML, consulta Interfacce per eseguire una della pipeline. Per ulteriori informazioni su come per creare un'esecuzione pipeline, consulta Eseguire una pipeline.

  4. Monitora, visualizza e analizza le esecuzioni: dopo aver creato un'esecuzione della pipeline, puoi procedere nel seguente modo per monitorare il rendimento, lo stato e i costi delle esecuzioni della pipeline:

  5. (Facoltativo) arresta o elimina le esecuzioni della pipeline: non esistono limitazioni relative al modo in cui puoi mantenere attiva l'esecuzione di una pipeline. Facoltativamente, puoi effettuare le seguenti operazioni:

    • Arresta l'esecuzione di una pipeline.

    • Metti in pausa o riprendi la pianificazione dell'esecuzione di una pipeline.

    • Elimina un modello di pipeline, un'esecuzione pipeline o una pianificazione di esecuzione pipeline esistente.

Che cos'è l'esecuzione di una pipeline?

Un'esecuzione pipeline è un'istanza di esecuzione della definizione della tua pipeline ML. Ciascuna dell'esecuzione della pipeline è identificata da un nome esecuzione univoco. Usando Vertex AI Pipelines, puoi creare una pipeline ML eseguita nei seguenti modi:

  • Usa la definizione YAML compilata di una pipeline

  • Usa un modello di pipeline dalla Galleria modelli

Per saperne di più su come creare un'esecuzione della pipeline, consulta Eseguire della pipeline. Per ulteriori informazioni su come per creare un'esecuzione pipeline da un modello di pipeline, consulta Creare, caricare e utilizzare modello di pipeline.

Per informazioni sull'acquisizione e sull'archiviazione dei metadati di esecuzione della pipeline utilizzando Vertex ML Metadata, consulta Utilizzare Vertex ML Metadata per tenere traccia la derivazione degli artefatti ML.

Per informazioni sull'utilizzo delle esecuzioni della pipeline per sperimentare sul flusso di lavoro ML utilizzando Vertex AI Experiments, consulta Aggiungere le esecuzioni della pipeline a esperimenti.

Traccia la derivazione degli artefatti ML

Un'esecuzione della pipeline contiene diversi artefatti e parametri, inclusa la pipeline metadati. Per comprendere le variazioni nelle prestazioni o nell'accuratezza del tuo ML devi analizzare i metadati e la derivazione degli artefatti ML dell'esecuzione della pipeline ML. La derivazione di un artefatto ML include tutti i fattori che hanno contribuito alla sua creazione, insieme a metadati e riferimenti agli artefatti che ne deriva.

I grafici di derivazione consentono di analizzare la causa principale a monte e l'impatto a valle. Ogni esecuzione della pipeline produce un grafico di derivazione di parametri e artefatti l'input nell'esecuzione, materializzato nella fase di esecuzione e l'output dall'esecuzione. I metadati che compongono questo grafico di derivazione sono archiviati in Vertex ML Metadata. Questi metadati possono anche essere sincronizzati con Dataplex.

  • Usa Vertex ML Metadata per tenere traccia della derivazione degli artefatti della pipeline

    Quando esegui una pipeline utilizzando Vertex AI Pipelines, e i metadati degli artefatti utilizzati e generati dalla pipeline vengono archiviati Vertex ML Metadata. Vertex ML Metadata è un'implementazione gestita la libreria di metadati ML in TensorFlow e supporta la registrazione e e scrivere schemi di metadati personalizzati. Quando crei una pipeline, esegui Vertex AI Pipelines, i metadati dell'esecuzione della pipeline nell'archivio di metadati predefinito per il progetto e la regione in cui esegui la pipeline.

  • Usa Dataplex per tenere traccia della derivazione degli artefatti della pipeline (anteprima)

    Dataplex è una piattaforma globale data fabric integrato con più sistemi in Google Cloud, come Vertex AI, BigQuery e Cloud Composer. In Dataplex, puoi cercare un artefatto della pipeline visualizzare il grafico della derivazione. Tieni presente che, per evitare conflitti tra artefatti, qualsiasi risorsa catalogato in Dataplex viene identificato con una nome completo.

    Scopri di più sui costi di utilizzo di Dataplex.

Per ulteriori informazioni sul monitoraggio della derivazione degli artefatti ML utilizzando Vertex ML Metadata e Dataplex, consulta Tracciare la derivazione della pipeline artefatto.

Per ulteriori informazioni su come visualizzare, analizzare e confrontare le esecuzioni della pipeline, consulta Visualizzare e analizzare i risultati della pipeline. Per un elenco dei tipi di artefatti proprietari definiti nei componenti della pipeline di Google Cloud, consulta Tipi di artefatti dei metadati ML.

Aggiungi esecuzioni pipeline agli esperimenti

Vertex AI Experiments consente di monitorare e analizzare vari modelli architetture, iperparametri e ambienti di addestramento per trovare il modello migliore per il tuo caso d'uso dell'ML. Dopo aver creato l'esecuzione di una pipeline ML, puoi associarla durante l'esecuzione di un esperimento o di un esperimento. In questo modo, puoi sperimentare set di variabili come iperparametri, numero di passaggi di addestramento o iterazioni.

Per saperne di più sulla sperimentazione dei flussi di lavoro ML utilizzando Vertex AI Experiments; consulta Introduzione a Vertex AI Experiments.

Passaggi successivi