Panoramica delle pipeline ML

Questo documento fornisce una panoramica dei servizi che puoi utilizzare per creare una pipeline di ML per gestire il flusso di lavoro MLOps di BigQuery ML.

Una pipeline ML è una rappresentazione di un flusso di lavoro MLOps composto da una serie di attività della pipeline. Ogni attività della pipeline esegue un passaggio specifico nel flusso di lavoro MLOps per addestrare e implementare un modello. Separare ogni passaggio in un'attività standardizzata e riutilizzabile ti consente di automatizzare e monitorare le procedure ripetibili nella tua pratica di ML.

Per creare pipeline di BigQuery ML, puoi utilizzare uno dei seguenti servizi:

  • Utilizza Vertex AI Pipelines per creare pipeline di ML portatili ed estensionabili.
  • Utilizza le query GoogleSQL per creare pipeline ML basate su SQL meno complesse.
  • Utilizza Dataform per creare pipeline ML basate su SQL più complesse o pipeline ML in cui devi utilizzare il controllo della versione.

Vertex AI Pipelines

In Vertex AI Pipelines, una pipeline di ML è strutturata come un grafo diretti aciclici (DAG) di attività di pipeline conteggiate interconnesse tramite dipendenze input-output. Ogni attività della pipeline è un'istanza di un componente della pipeline con input specifici. Quando definisci la pipeline ML, colleghi più attività della pipeline per formare un DAG inviando gli output di un'attività della pipeline agli input dell'attività successiva nel flusso di lavoro di ML. Puoi anche utilizzare gli input originali della pipeline di ML come input per una determinata attività della pipeline.

Utilizza i componenti BigQuery ML dell'SDK Google Cloud Pipeline Components per comporre pipeline ML in Vertex AI Pipelines. Per iniziare a utilizzare i componenti di BigQuery ML, consulta i seguenti notebook:

Query GoogleSQL

Puoi utilizzare il linguaggio procedurale GoogleSQL per eseguire più istruzioni in una query con più istruzioni. Puoi utilizzare una query con più istruzioni per:

  • Esegui più istruzioni in sequenza, con stato condiviso.
  • Automatizza le attività di gestione come la creazione o l'eliminazione di tabelle.
  • Implementa una logica complessa utilizzando costrutti di programmazione come IF e WHILE.

Dopo aver creato una query con più istruzioni, puoi salvarla e pianificarla per automatizzare l'addestramento, l'inferenza e il monitoraggio del modello.

Se la pipeline ML include l'utilizzo della funzione ML.GENERATE_TEXT, consulta Gestire gli errori di quota chiamando ML.GENERATE_TEXT in modo iterativo per ulteriori informazioni su come utilizzare SQL per eseguire l'iterazione delle chiamate alla funzione. La chiamata della funzione in modo iterativo ti consente di risolvere eventuali errori ripetibili che si verificano a causa del superamento delle quote e dei limiti.

Dataform

Puoi utilizzare Dataform per sviluppare, testare, controllare la versione e pianificare flussi di lavoro SQL complessi per la trasformazione dei dati in BigQuery. Puoi utilizzare Dataform per attività come la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo che i dati non elaborati sono stati estratti dai sistemi di origine e caricati in BigQuery, Dataform ti aiuta a trasformarli in una suite di tabelle di dati ben definita, testata e documentata.

Se la pipeline ML include l'utilizzo della funzione ML.GENERATE_TEXT, puoi adattare la libreria di esempi structured_table_ml.js per eseguire l'iterazione delle chiamate alla funzione. La chiamata della funzione in modo iterativo ti consente di risolvere eventuali errori ripetibili che si verificano a causa del superamento delle quote e dei limiti che si applicano alla funzione.