Panoramica delle pipeline ML
Questo documento fornisce una panoramica dei servizi che puoi utilizzare per creare un per gestire la tua pipeline BigQuery ML MLOps un flusso di lavoro di machine learning.
Una pipeline ML è una rappresentazione di un flusso di lavoro MLOps, composto da un di attività della pipeline. Ogni attività della pipeline esegue un passaggio specifico nel flusso di lavoro di MLOps per addestrare e implementare un modello. Separare ogni passaggio in un un'attività standardizzata e riutilizzabile che consente di automatizzare e monitorare i processi ripetibili nella pratica dell'ML.
Puoi utilizzare uno qualsiasi dei seguenti servizi per creare BigQuery ML Pipeline ML:
- Utilizza Vertex AI Pipelines per creare pipeline ML portatili ed estensionabili.
- Utilizza le query GoogleSQL per creare pipeline ML basate su SQL meno complesse.
- Usa Dataform per creare pipeline ML più complesse basate su SQL, o ML pipeline in cui devi usare il controllo della versione.
Vertex AI Pipelines
In Vertex AI Pipelines, una pipeline ML è strutturata come un grafo diretto aciclico (DAG) di di attività della pipeline interconnesse tramite dipendenze input-output. Ogni attività della pipeline è un'istanza di un componente pipeline con input specifici. Quando definisci la tua pipeline ML, colleghi più delle attività della pipeline per formare un DAG indirizzando gli output di un'attività della pipeline alla per l'attività successiva della pipeline nel flusso di lavoro ML. Puoi utilizzare anche input originali nella pipeline ML come input per una determinata attività della pipeline.
Utilizza la Componenti di BigQuery ML dell'SDK dei componenti della pipeline di Google Cloud per comporre le pipeline ML in Vertex AI Pipelines. Per iniziare per i componenti di BigQuery ML, consulta i seguenti blocchi note:
- Iniziare a utilizzare i componenti della pipeline di BigQuery ML
- Addestrare e valutare un modello di previsione della domanda
Query GoogleSQL
Puoi utilizzare il linguaggio procedurale GoogleSQL per eseguire più istruzioni in una query con più istruzioni. Puoi utilizzare una query con più istruzioni per:
- Esegui più istruzioni in sequenza con stato condiviso.
- Automatizza le attività di gestione come la creazione o l'eliminazione delle tabelle.
- Implementa una logica complessa utilizzando costrutti di programmazione come
IF
eWHILE
.
Dopo aver creato una query con più dichiarazioni, puoi salva e pianificare la query per automatizzare il modello addestramento, inferenza e monitoraggio.
Se la pipeline ML include l'utilizzo della
funzione ML.GENERATE_TEXT
, consulta
Gestire gli errori di quota chiamando ML.GENERATE_TEXT
in modo iterativo per ulteriori informazioni su come utilizzare SQL per eseguire l'iterazione delle chiamate alla funzione. Chiamare la funzione
consente iterativamente di correggere eventuali errori irreversibili che si verificano a causa di
le quote e i limiti.
Dataform
Puoi utilizzare Dataform per sviluppare, testare, controllare le versioni e pianificare flussi di lavoro SQL complessi per i dati e la trasformazione in BigQuery. Puoi utilizzare Dataform per attività come la trasformazione dei dati nel processo di estrazione, caricamento e trasformazione (ELT) per l'integrazione dei dati. Dopo che i dati non elaborati sono stati estratti dai sistemi di origine e caricati in BigQuery, Dataform ti aiuta a trasformarli in una suite di tabelle di dati ben definita, testata e documentata.
Se la tua pipeline ML include l'uso
Funzione ML.GENERATE_TEXT
,
puoi adattare
structured_table_ml.js
libreria di esempio
per eseguire l'iterazione attraverso le chiamate alla funzione. La chiamata della funzione
in modo iterativo ti consente di risolvere eventuali errori ripetibili che si verificano a causa del superamento
delle quote e dei limiti che si applicano alla funzione.