Orchestrare i flussi di lavoro
Per richiedere assistenza o fornire feedback su questa funzionalità, invia un'email all'indirizzo bigquery-workflows-preview-feedback@google.com.
Questo documento descrive come orchestrare i flussi di lavoro, incluso come pianificarli e ispezionarne le esecuzioni pianificate.
Workflows sono basati su Dataform.
Ogni pianificazione del flusso di lavoro viene eseguita da un account di servizio Dataform personalizzato, selezionato durante la creazione della pianificazione. Per ulteriori informazioni sui tipi di service account in Dataform, consulta Informazioni sugli account di servizio in Dataform.
Le modifiche apportate a un flusso di lavoro vengono salvate automaticamente, ma sono disponibili solo per te e per gli utenti a cui è stato assegnato il ruolo Amministratore di Dataform nel progetto. Per aggiornare la pianificazione con una nuova versione del flusso di lavoro, devi eseguire il deployment del flusso di lavoro. Il deployment aggiorna la pianificazione in modo da utilizzare la versione corrente del flusso di lavoro. Le pianificazioni eseguono sempre la versione di cui è stato eseguito il deployment più di recente.
Le pianificazioni dei flussi di lavoro che contengono notebook utilizzano una specifica di runtime predefinita. Durante l'esecuzione pianificata di un flusso di lavoro contenente notebook, BigQuery scrive l'output del notebook nel bucket Cloud Storage selezionato durante la creazione della pianificazione.
Prima di iniziare
Prima di iniziare, crea un flusso di lavoro.
Attivare la pianificazione del flusso di lavoro
Per pianificare i workflow, devi concedere i seguenti ruoli all'account di servizio che prevedi di utilizzare per le pianificazioni dei workflow:
- Utente dell'account di servizio (
roles/iam.serviceAccountUser
) - Segui la procedura descritta in Concedere un singolo ruolo a un account di servizio per aggiungere l'account di servizio come entità a se stesso. In altre parole, aggiungi l'account di servizio come entità allo stesso account di servizio. Quindi, concedi a questa entità il ruolo Utente account di servizio.
Se il tuo workflow contiene query SQL, devi concedere i seguenti ruoli all'account di servizio che prevedi di utilizzare per le pianificazioni dei workflow:
- Utente job BigQuery (
roles/bigquery.jobUser
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Utente job BigQuery al tuo account di servizio nei progetti da cui i tuoi flussi di lavoro leggono i dati.
- Visualizzatore dei dati BigQuery (
roles/bigquery.dataViewer
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Visualizzatore dati BigQuery al tuo account di servizio nei progetti da cui i tuoi flussi di lavoro leggono i dati.
- BigQuery Data Editor (
roles/bigquery.dataEditor
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Data Editor di BigQuery al tuo account di servizio nei progetti in cui i tuoi flussi di lavoro scrivono dati.
Se il tuo flusso di lavoro contiene notebook, devi concedere i seguenti ruoli all'account di servizio che prevedi di utilizzare per le pianificazioni dei flussi di lavoro:
- Utente dell'eseguitore del notebook (
roles/aiplatform.notebookExecutorUser
) - Segui la procedura per concedere un singolo ruolo a un progetto per concedere il ruolo Utente Executor di notebook al tuo account di servizio nel progetto selezionato.
- Amministratore dello spazio di archiviazione (
roles/storage.admin
) - Segui la procedura Aggiungere un'entità a un criterio a livello di bucket per aggiungere il tuo account di servizio come entità al bucket Cloud Storage che prevedi di utilizzare per archiviare l'output dei notebook eseguiti nelle esecuzioni pianificate del flusso di lavoro e concedi a questa entità il ruolo Amministratore archiviazione.
Inoltre, devi concedere il seguente ruolo all'account di servizio Dataform predefinito:
- Creatore token account di servizio(
roles/iam.serviceAccountTokenCreator
) - Segui la procedura descritta in Concedere l'accesso alla creazione di token a un account di servizio per aggiungere l'account di servizio Dataform predefinito come entità al tuo account di servizio e concedi il ruolo Creatore token account di servizio a questa entità.
Per scoprire di più sugli account di servizio in Dataform, consulta Informazioni sugli account di servizio in Dataform.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire i workflow, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Per eliminare i flussi di lavoro:
Dataform Admin (
roles/dataform.Admin
) nel flusso di lavoro -
Per creare, modificare, eseguire ed eliminare le pianificazioni dei flussi di lavoro:
Amministratore Dataform (
roles/dataform.Admin
) nel flusso di lavoro -
Per visualizzare ed eseguire i flussi di lavoro:
Dataform Viewer (
roles/dataform.Viewer
) nel progetto -
Per visualizzare le pianificazioni dei flussi di lavoro:
Editor Dataform (
roles/dataform.Editor
) nel progetto
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per ulteriori informazioni su Dataform IAM, consulta Controllo dell'accesso con IAM.
Creare una pianificazione del flusso di lavoro
Per pianificare un workflow:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Pianifica.
Nel riquadro Pianifica flusso di lavoro, inserisci un nome per la pianificazione nel campo Nome pianificazione.
Nel campo Account di servizio, seleziona un account di servizio.
Se il flusso di lavoro contiene un notebook, nel campo Bucket Cloud Storage, fai clic su Sfoglia e seleziona o crea un bucket Cloud Storage per archiviare l'output dei notebook nel flusso di lavoro.
All'account di servizio selezionato deve essere concesso il ruolo IAM Amministratore archiviazione per il bucket selezionato. Per ulteriori informazioni, vedi Attivare la pianificazione dei flussi di lavoro.
Nella sezione Frequenza pianificazione, segui questi passaggi:
- Nel menu a discesa Ripeti, seleziona la frequenza delle esecuzioni pianificate del flusso di lavoro.
- Nel campo All'ora, inserisci l'ora delle esecuzioni pianificate del flusso di lavoro.
- Nel menu a discesa Fuso orario, seleziona il fuso orario per la programmazione.
Fai clic su Crea programmazione.
Quando crei la pianificazione, viene eseguita automaticamente il deployment della versione corrente del workflow. Per aggiornare la pianificazione con una nuova versione del flusso di lavoro, esegui il deployment del flusso di lavoro.
L'ultima versione di cui è stato eseguito il deployment del flusso di lavoro viene eseguita con la frequenza e nell'ora selezionate.
Esegui il deployment di un flusso di lavoro
Il deployment di un flusso di lavoro aggiorna la relativa pianificazione con la versione corrente del flusso di lavoro. Le pianificazioni eseguono la versione di cui è stato eseguito il deployment più recente del flusso di lavoro.
Per eseguire il deployment di un flusso di lavoro:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Esegui il deployment.
La pianificazione corrispondente viene aggiornata con la versione corrente del flusso di lavoro. L'ultima versione di cui è stato eseguito il deployment del flusso di lavoro viene eseguita all'ora pianificata.
Disattivare una pianificazione
Per mettere in pausa le esecuzioni pianificate di un flusso di lavoro selezionato senza eliminare la pianificazione, puoi disattivarla.
Per disattivare una pianificazione per un workflow selezionato:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Visualizza pianificazione.
Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è attivata.
Attivare una pianificazione
Per riprendere le esecuzioni pianificate di una pianificazione del flusso di lavoro disattivata:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Visualizza pianificazione.
Nella tabella Dettagli pianificazione, nella riga Stato pianificazione, fai clic sul pulsante di attivazione/disattivazione La pianificazione è disattivata.
Eseguire manualmente un workflow di cui è stato eseguito il deployment
Quando esegui manualmente un flusso di lavoro di cui è stato eseguito il deployment in una pianificazione selezionata, BigQuery esegue il flusso di lavoro di cui è stato eseguito il deployment una volta, indipendentemente dalla pianificazione.
Per eseguire manualmente un flusso di lavoro di cui è stato eseguito il deployment:
Nella console Google Cloud , vai alla pagina Orchestration.
Fai clic sul nome della pianificazione del flusso di lavoro selezionata.
Nella pagina Dettagli pianificazione, fai clic su Esegui.
Visualizzare tutte le pianificazioni del flusso di lavoro
Per visualizzare tutte le pianificazioni dei flussi di lavoro nel tuo progetto Google Cloud :
Nella console Google Cloud , vai alla pagina Orchestration.
(Facoltativo) Per visualizzare colonne aggiuntive con i dettagli della pianificazione del flusso di lavoro, fai clic su
Opzioni di visualizzazione delle colonne, quindi seleziona le colonne e fai clic su OK.
Visualizzare i dettagli della pianificazione del flusso di lavoro
Per visualizzare i dettagli di una pianificazione del flusso di lavoro selezionata:
Riquadro Explorer
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Visualizza pianificazione.
Pagina Orchestrazione
Nella console Google Cloud , vai alla pagina Orchestration.
Fai clic sul nome della pianificazione del flusso di lavoro selezionata.
Visualizzare le esecuzioni pianificate precedenti
Per visualizzare le esecuzioni precedenti di una pianificazione del flusso di lavoro selezionata:
Riquadro Explorer
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Esecuzioni.
(Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.
Pagina Orchestrazione
- Nella console Google Cloud , vai alla pagina Orchestration.
Vai alla pagina Orchestrazione
Fai clic sul nome del flusso di lavoro selezionato.
Nella pagina Dettagli pianificazione, nella sezione Esecuzioni passate, esamina le esecuzioni passate.
(Facoltativo) Per aggiornare l'elenco delle esecuzioni passate, fai clic su Aggiorna.
Modificare la pianificazione di un workflow
Per modificare una pianificazione del flusso di lavoro:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e la cartella Workflow, quindi seleziona un flusso di lavoro.
Fai clic su Visualizza pianificazione e poi su Modifica.
Nella finestra di dialogo Pianifica flusso di lavoro, modifica la pianificazione, quindi fai clic su Aggiorna pianificazione.
Eliminare una pianificazione del flusso di lavoro
Per eliminare definitivamente una pianificazione del flusso di lavoro:
Nella console Google Cloud , vai alla pagina Orchestration.
Esegui una delle operazioni seguenti:
Fai clic sul nome della pianificazione del flusso di lavoro selezionata e poi sulla pagina Dettagli pianificazione fai clic su Elimina.
Nella riga contenente la pianificazione del flusso di lavoro selezionata, fai clic su
Visualizza azioni nella colonna Azioni e poi su Elimina.
Nella finestra di dialogo visualizzata, fai clic su Elimina.
Passaggi successivi
- Scopri di più sulle workflow in BigQuery.
- Scopri come creare flussi di lavoro.