Panoramica delle pipeline ML

Questo documento fornisce una panoramica dei servizi che puoi utilizzare per creare un per gestire la tua pipeline BigQuery ML MLOps un flusso di lavoro di machine learning.

Una pipeline ML è una rappresentazione di un flusso di lavoro MLOps, composto da un di attività della pipeline. Ogni attività della pipeline esegue un passaggio specifico nel flusso di lavoro di MLOps per addestrare e implementare un modello. Separare ogni passaggio in un un'attività standardizzata e riutilizzabile che consente di automatizzare e monitorare i processi ripetibili nella pratica dell'ML.

Puoi utilizzare uno qualsiasi dei seguenti servizi per creare BigQuery ML Pipeline ML:

  • Utilizza Vertex AI Pipelines per creare pipeline ML portatili ed estensionabili.
  • Utilizza le query GoogleSQL per creare pipeline ML basate su SQL meno complesse.
  • Usa Dataform per creare pipeline ML più complesse basate su SQL, o ML pipeline in cui devi usare il controllo della versione.

Vertex AI Pipelines

In Vertex AI Pipelines, una pipeline ML è strutturata come un grafo diretto aciclico (DAG) di di attività della pipeline interconnesse tramite dipendenze input-output. Ogni attività della pipeline è un'istanza di un componente pipeline con input specifici. Quando definisci la tua pipeline ML, colleghi più delle attività della pipeline per formare un DAG indirizzando gli output di un'attività della pipeline alla per l'attività successiva della pipeline nel flusso di lavoro ML. Puoi utilizzare anche input originali nella pipeline ML come input per una determinata attività della pipeline.

Utilizza la Componenti di BigQuery ML dell'SDK dei componenti della pipeline di Google Cloud per comporre le pipeline ML in Vertex AI Pipelines. Per iniziare per i componenti di BigQuery ML, consulta i seguenti blocchi note:

Query GoogleSQL

Puoi utilizzare il linguaggio procedurale GoogleSQL per eseguire più istruzioni in una query con più istruzioni. Puoi utilizzare una query con più istruzioni per:

  • Esegui più istruzioni in sequenza con stato condiviso.
  • Automatizza le attività di gestione come la creazione o l'eliminazione delle tabelle.
  • Implementa una logica complessa utilizzando costrutti di programmazione come IF e WHILE.

Dopo aver creato una query con più dichiarazioni, puoi salva e pianificare la query per automatizzare il modello addestramento, inferenza e monitoraggio.

Se la pipeline ML include l'utilizzo della funzione ML.GENERATE_TEXT, consulta Gestire gli errori di quota chiamando ML.GENERATE_TEXT in modo iterativo per ulteriori informazioni su come utilizzare SQL per eseguire l'iterazione delle chiamate alla funzione. Chiamare la funzione consente iterativamente di correggere eventuali errori irreversibili che si verificano a causa di le quote e i limiti.

Dataform

Puoi utilizzare Dataform per sviluppare, testare, controllare le versioni e pianificare flussi di lavoro SQL complessi per i dati e la trasformazione in BigQuery. Puoi utilizzare Dataform per attività come la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo che i dati non elaborati sono stati estratti dai sistemi di origine e caricati in BigQuery, Dataform ti aiuta a trasformarli in una suite di tabelle di dati ben definita, testata e documentata.

Se la tua pipeline ML include l'uso Funzione ML.GENERATE_TEXT, puoi adattare structured_table_ml.js libreria di esempio per eseguire l'iterazione attraverso le chiamate alla funzione. La chiamata della funzione in modo iterativo ti consente di risolvere eventuali errori ripetibili che si verificano a causa del superamento delle quote e dei limiti che si applicano alla funzione.