Questo documento ti aiuta a comprendere il concetto di repository in Dataform e come creare un nuovo repository.
Informazioni sui repository Dataform
Ogni repository Dataform contiene una raccolta di file SQLX e JavaScript che costituiscono il tuo flusso di lavoro, nonché pacchetti e file di configurazione Dataform. Interagisci con i contenuti del tuo repository in uno spazio di lavoro per lo sviluppo.
Dataform mostra i tuoi repository nella pagina Dataform nell'ordine alfabetico degli ID repository. Puoi ordinarli e filtrarli.
Per visualizzare i tuoi repository, vai alla pagina Dataform nella console Google Cloud.
Ogni repository Dataform è collegato a un account di servizio. Puoi selezionare un account di servizio quando crei un repository o modificarlo in un secondo momento.
Per impostazione predefinita, Dataform utilizza un account di servizio derivato dal numero del progetto nel seguente formato:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform utilizza Git per registrare le modifiche e gestire le versioni dei file. Ogni repository Dataform corrisponde a un repository Git. Dopo aver creato un repository Dataform, puoi connetterlo a un repository GitHub, GitLab o Bitbucket remoto.
In un repository Dataform, Dataform archivia il codice del repository. In un repository collegato, il repository di terze parti memorizza il codice del repository. Dataform interagisce con il repository di terze parti per consentirti di modificare e di eseguire i relativi contenuti in uno spazio di lavoro di sviluppo Dataform.
Una pagina del repository Dataform è costituita dai seguenti componenti:
- Scheda Spazio di lavoro di sviluppo
- Mostra gli spazi di lavoro di sviluppo creati nel repository.
- Scheda Configurazioni release
- Ti consente di ispezionare, creare, modificare ed eliminare release.
- Scheda Log di esecuzione del flusso di lavoro
- Visualizza i log di esecuzione del flusso di lavoro Dataform.
- Scheda Configurazioni dei workflow
- Ti consente di ispezionare, creare, modificare ed eliminare configurazioni dei flussi di lavoro.
- Scheda Impostazioni
- Mostra il nome e la posizione del repository. Per un repository collegato a un repository Git di terze parti, vengono visualizzati la sorgente del repository di terze parti, il nome del ramo predefinito e il token segreto. Mostra i pulsanti per collegare il repository a un repository Git di terze parti e per modificare la connessione Git.
- Pulsante Crea area di lavoro di sviluppo
- Ti consente di creare uno spazio di lavoro di sviluppo.
Dopo aver creato e inizializzato un'area di lavoro di sviluppo, puoi modificare il file di impostazioni del flusso di lavoro per configurare le seguenti impostazioni Dataform del tuo repository:
- Il database predefinito (Google Cloud ID progetto).
- Lo schema predefinito (ID set di dati BigQuery).
- La posizione BigQuery predefinita.
- Lo schema predefinito (ID set di dati BigQuery) per le asserzioni.
- Il magazzino, che deve essere impostato su
bigquery
. - Variabili definite dall'utente rese disponibili per il codice del progetto durante la compilazione.
Per ulteriori informazioni sulle impostazioni del repository Dataform, consulta IProjectConfig nel riferimento di Dataform Core.
Impostazioni repository
Quando crei un repository Dataform, devi impostare le seguenti impostazioni del repository:
- ID repository
- Un ID univoco del repository. Gli ID possono includere solo numeri, lettere, trattini e trattini bassi.
- Regione
Regione Dataform per l'archiviazione del repository e dei relativi contenuti.
Questa regione di archiviazione può essere diversa dalla regione di elaborazione in cui Dataform elabora il codice e archivia l'output delle esecuzioni. Per impostazione predefinita, la regione di elaborazione è impostata sulla regione del set di dati BigQuery predefinito. Puoi modificare la regione di elaborazione nel file delle impostazioni del workflow dopo aver creato il repository. Per ulteriori informazioni, consulta Configurare le impostazioni di Dataform.
- Service account
Service account associato al repository. Puoi selezionare l'account di servizio Dataform predefinito, un account di servizio associato al tuo progetto Google Cloud o inserire manualmente un altro account di servizio. Per impostazione predefinita, Dataform utilizza un account di servizio derivato dal numero del progetto nel seguente formato:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform utilizza l'account di servizio predefinito per tutte le operazioni sul repository. Puoi utilizzare un account di servizio diverso per eseguire i flussi di lavoro nel tuo repository, ma l'account di servizio predefinito viene comunque utilizzato per tutte le altre operazioni del repository.
- Crittografia
Metodo di crittografia per il repository. Puoi utilizzare la crittografia predefinita, una chiave di crittografia Cloud KMS gestita dal cliente univoca o una chiave CMEK predefinita di Dataform. Per ulteriori informazioni sull'utilizzo delle chiavi di crittografia gestite dal cliente (CMEK) in Dataform, consulta Utilizzare le chiavi di crittografia gestite dal cliente.
Dopo aver creato un repository, puoi connetterlo a GitHub o GitLab.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- Per utilizzare la crittografia CMEK per il repository, abilita la crittografia CMEK dei repository Dataform.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per creare ed eliminare un repository,
chiedi all'amministratore di concederti il ruolo IAM Amministratore Dataform (roles/dataform.admin
) per i repository.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per utilizzare un account di servizio diverso dall'account di servizio Dataform predefinito, concedi l'accesso all'account di servizio personalizzato.
Dopo aver creato un repository Dataform, Dataform ti concede automaticamente il ruolo di amministratore Dataform in quel repository.
Crea un repository
Per creare un repository Dataform:
Nella console Google Cloud, vai alla pagina Dataform.
Fai clic su Crea repository.
Nella pagina Crea repository, inserisci un ID univoco nel campo ID repository.
Gli ID possono includere solo numeri, lettere, trattini e trattini bassi.
Nell'elenco a discesa Regione, seleziona una regione Dataform per archiviare il repository e i relativi contenuti. Seleziona la regione Dataform più vicina alla tua località.
Per un elenco delle regioni Dataform disponibili, consulta Località. La regione del repository non deve necessariamente corrispondere alla località dei set di dati BigQuery.
Nel file
workflow_settings.yaml
, puoi impostare la regione di elaborazione in cui Dataform elabora il codice e memorizza l'output delle esecuzioni. La regione di elaborazione deve corrispondere alla posizione dei set di dati BigQuery, ma non deve corrispondere alla regione del repository. Per ulteriori informazioni, consulta Configurare le impostazioni di Dataform.Nel menu a discesa Account di servizio, seleziona un account di servizio per il repository.
Nel menu a discesa, puoi selezionare l'account di servizio Dataform predefinito o qualsiasi account di servizio associato al tuo progetto Google Cloud a cui hai accesso. Tieni presente che gli account di servizio personalizzati vengono utilizzati solo per l'esecuzione del flusso di lavoro. Tutte le altre operazioni del repository vengono comunque eseguite dall'account di servizio Dataform predefinito.
- (Facoltativo) Per selezionare un account di servizio non visualizzato nel menu a discesa, fai clic su Inserisci manualmente e inserisci un ID account di servizio.
Configura il meccanismo di crittografia selezionato per il repository:
Chiave CMEK predefinita
Dataform mostra la casella di controllo Utilizza la chiave KMS predefinita e la seleziona per impostazione predefinita.
- Per criptare il repository con la chiave CMEK di Dataform predefinita, lascia selezionata la casella di controllo Utilizza la chiave KMS predefinita.
Chiave CMEK univoca
Per criptare il repository con una chiave CMEK univoca:
- Se la casella di controllo Utilizza la chiave KMS predefinita è selezionata per impostazione predefinita, deselezionala.
- Nella sezione Crittografia, seleziona l'opzione Chiavi di crittografia gestite dal cliente (CMEK).
- Nel menu a discesa Seleziona una chiave gestita dal cliente, seleziona una chiave CMEK univoca.
Crittografia dei dati inattivi
- Per utilizzare la crittografia predefinita, nella sezione Crittografia, seleziona l'opzione Google-managed encryption key.
Fai clic su Crea e poi su Fine.
Modifica l'account di servizio
Puoi associare un account di servizio personalizzato a un repository Dataform per l'esecuzione del flusso di lavoro. Tutte le altre operazioni del repository vengono effettuate dall'account di servizio Dataform predefinito.
Per modificare l'account di servizio per un repository Dataform:
Nella console Google Cloud, vai alla pagina Dataform.
Seleziona un repository e fai clic su Impostazioni.
Accanto al campo Account di servizio, fai clic su
Modifica account di servizio.Nel menu a discesa Account di servizio, seleziona un account di servizio per il repository.
Nel menu a discesa, puoi selezionare l'account di servizio Dataform predefinito o qualsiasi account di servizio associato al tuo progetto Google Cloud a cui hai accesso.
- (Facoltativo) Per selezionare un account di servizio non visualizzato nel menu a discesa, fai clic su Inserisci manualmente e inserisci un ID account di servizio.
Fai clic su Salva.
Eliminare un repository
Per eliminare un repository e tutti i relativi contenuti:
Nella console Google Cloud, vai alla pagina Dataform.
Accanto al repository che vuoi eliminare, fai clic sul menu
Altro e seleziona Elimina.Nella finestra Elimina repository, inserisci il nome del repository per confermare l'eliminazione.
Fai clic su Elimina.
Passaggi successivi
- Per scoprire come collegare un repository Dataform a un repository Git di terze parti, consulta Eseguire la connessione a un repository Git di terze parti.
- Per scoprire di più su come le dimensioni del repository influiscono sullo sviluppo in Dataform, consulta Panoramica delle dimensioni del repository.
- Per scoprire di più sulla suddivisione di un repository in Dataform, consulta Introduzione alla suddivisione dei repository.
- Per scoprire come configurare le impostazioni di elaborazione di Dataform, consulta Configurare le impostazioni di Dataform.
- Per scoprire come creare e inizializzare un'area di lavoro, consulta Creare un'area di lavoro.