Introduzione ad AI Platform Pipelines

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

I flussi di lavoro di machine learning (ML) includono passaggi per preparare e analizzare i dati, addestrare e valutare modelli, eseguire il deployment di modelli addestrati in produzione, monitorare gli artefatti di ML e comprendere le loro dipendenze, ecc. La gestione di questi passaggi in maniera specifica può essere difficile e richiedere molto tempo.

MLOps è la pratica di applicare le pratiche DevOps per aiutare ad automatizzare, gestire e controllare i flussi di lavoro ML. AI Platform Pipelines ti aiuta a implementare le MLOps fornendo una piattaforma in cui puoi orchestrare i passaggi del tuo flusso di lavoro come pipeline. Le pipeline ML sono definizioni portabili e riproducibili di flussi di lavoro ML.

AI Platform Pipelines semplifica l'avvio di MLOps evitando la difficoltà di configurazione di Kubeflow Pipelines con TensorFlow Extended (TFX). Kubeflow Pipelines è una piattaforma open source per l'esecuzione, il monitoraggio, l'auditing e la gestione di pipeline ML su Kubernetes. TFX è un progetto open source per la creazione di pipeline ML che orchestrano i flussi di lavoro ML end-to-end.

Informazioni su Kubeflow e sulla piattaforma delle pipeline di Kubeflow

Kubeflow è un toolkit open source per l'esecuzione di carichi di lavoro ML su Kubernetes. Le pipeline di Kubeflow sono un componente di Kubeflow che offre una piattaforma per la creazione e il deployment di flussi di lavoro ML, denominati pipeline.

Informazioni su TensorFlow Extended

TFX è un progetto open source che puoi utilizzare per definire i flussi di lavoro ML basati su TensorFlow come pipeline. TFX fornisce componenti che puoi riutilizzare per importare e trasformare i dati, addestrare e valutare un modello, eseguire il deployment di un modello addestrato per l'inferenza e così via. Riutilizzando i componenti TFX, puoi orchestrare il processo di machine learning senza la necessità di creare componenti personalizzati per ogni passaggio.

Informazioni su AI Platform Pipelines

AI Platform Pipelines evita le difficoltà di:

Con AI Platform Pipelines, puoi configurare un cluster Kubeflow Pipelines in 15 minuti, in modo da iniziare rapidamente a utilizzare le pipeline ML. AI Platform Pipelines crea anche un bucket Cloud Storage, per semplificare l'esecuzione dei tutorial delle pipeline e iniziare a utilizzare i modelli di pipeline TFX.

Informazioni sulle pipeline ML

Le pipeline ML sono flussi di lavoro ML portatili e scalabili, basati su container. Le pipeline ML sono composte da un set di parametri di input e da un elenco di attività. Ogni attività è un'istanza di un componente pipeline.

Puoi utilizzare le pipeline ML per:

  • Applicare strategie MLOps per automatizzare i processi ripetibili.
  • Sperimenta eseguendo un flusso di lavoro ML con diversi insiemi di iperparametri, numero di passaggi di addestramento o iterazioni e così via.
  • Riutilizza il flusso di lavoro di una pipeline per addestrare un nuovo modello.

Per creare le pipeline puoi utilizzare i modelli di pipeline TensorFlow Extended o l'SDK Kubeflow Pipelines.

Informazioni sui componenti della pipeline

I componenti della pipeline sono insiemi di codice autonomi che eseguono un passaggio nel flusso di lavoro di una pipeline, ad esempio pre-elaborazione, trasformazione dei dati, addestramento dei modelli e così via.

I componenti sono composti da un insieme di parametri di input, da un set di output e dalla località di un'immagine container. Un'immagine container di un componente è un pacchetto che include il codice eseguibile del componente e una definizione dell'ambiente in cui viene eseguito il codice.

Informazioni sul flusso di lavoro della pipeline

Ogni attività in una pipeline esegue un passaggio nel flusso di lavoro della pipeline. Dal momento che le attività sono istanze di componenti della pipeline, le attività hanno parametri di input, output e un'immagine container. I parametri di input dell'attività possono essere impostati dai parametri di input della pipeline o impostati in modo da dipendere dall'output di altre attività all'interno di questa pipeline. Le pipeline di Kubeflow utilizzano queste dipendenze per definire il flusso di lavoro della pipeline come grafico aciclico diretto.

Ad esempio, prendi in considerazione una pipeline con le seguenti attività:

  • Preprocess: questa attività prepara i dati di addestramento.
  • Addestra: questa attività utilizza i dati di addestramento pre-elaborati per addestrare il modello.
  • Previsione: questa attività esegue il deployment del modello addestrato come servizio ML e riceve previsioni per il set di dati di test.
  • Matrice di confusione: questa attività utilizza l'output dell'attività di previsione per creare una matrice di confusione.
  • ROC: questa attività utilizza l'output dell'attività di previsione per eseguire l'analisi della curva delle caratteristiche operative del ricevitore (ROC).

Per creare il grafico del flusso di lavoro, l'SDK Kubeflow Pipelines analizza le dipendenze delle attività.

  • L'attività di pre-elaborazione non dipende da altre attività, quindi può essere la prima attività del flusso di lavoro oppure può essere eseguita contemporaneamente ad altre attività.
  • L'attività di addestramento si basa sui dati prodotti dall'attività di pre-elaborazione, quindi l'addestramento deve avvenire dopo la pre-elaborazione.
  • L'attività di previsione si basa sul modello addestrato prodotto dall'attività di addestramento, quindi la previsione deve essere eseguita dopo l'addestramento.
  • La creazione della matrice di confusione e l'esecuzione dell'analisi ROC si basano entrambe sull'output dell'attività di previsione, quindi devono avvenire al termine della previsione. La creazione della matrice di confusione e l'esecuzione di analisi ROC possono avere luogo in concomitanza poiché entrambi dipendono dall'output dell'attività di previsione.

In base a questa analisi, il sistema Kubeflow Pipelines esegue in sequenza le attività di pre-elaborazione, addestramento e previsione, quindi esegue contemporaneamente le attività di matrice di confusione e ROC.

Passaggi successivi