Questo documento descrive come importare i metadati da un'origine di terze parti in Dataplex eseguendo una pipeline di connettività gestita in Workflows.
Per configurare una pipeline di connettività gestita, devi creare un connettore per la tua origine dati. Poi esegui la pipeline in Workflows. La pipeline estrae i metadati dall'origine dati e poi li importa in Dataplex. Se necessario, la pipeline crea anche gruppi di voci di Dataplex Catalog nel tuo Google Cloud progetto.
Per ulteriori informazioni sulla connettività gestita, consulta Panoramica della connettività gestita.
Prima di iniziare
Prima di importare i metadati, completa le attività in questa sezione.
Crea un connettore
Un connettore estrae i metadati dall'origine dati e genera un file di importazione dei metadati che può essere importato da Dataplex. Il connettore è un'immagine Artifact Registry che può essere eseguita su Dataproc Serverless.
Crea un connettore personalizzato che estrae i metadati dall'origine di terze parti.
Per un esempio di connettore che puoi utilizzare come modello di riferimento per creare il tuo connettore, consulta Sviluppare un connettore personalizzato per l'importazione dei metadati.
Configura le Google Cloud risorse
-
Enable the Workflows, Dataproc, Cloud Storage, Dataplex, Secret Manager, Artifact Registry, and Cloud Scheduler APIs.
Se non prevedi di eseguire la pipeline in base a una pianificazione, non è necessario attivare l'API Cloud Scheduler.
Crea secret in Secret Manager per archiviare le credenziali per l'origine dati di terze parti.
Configura la tua rete Virtual Private Cloud (VPC) per eseguire i carichi di lavoro Dataproc Serverless per Spark.
Crea un bucket Cloud Storage per memorizzare i file di importazione dei metadati.
Crea le seguenti risorse di Dataplex Catalog:
Crea tipi di aspetti personalizzati per le voci da importare.
Crea tipi di voci personalizzate per le voci da importare.
Ruoli obbligatori
Un account di servizio rappresenta l'identità di un flusso di lavoro e determina le autorizzazioni di cui dispone e le Google Cloud risorse a cui può accedere. Devi disporre di un account di servizio per Workflows (per eseguire la pipeline) e per Dataproc Serverless (per eseguire il connettore).
Puoi utilizzare l'account di servizio predefinito di Compute Engine
(PROJECT_NUMBER-compute@developer.gserviceaccount.com
) o creare il tuo account di servizio
(o i tuoi account) per eseguire la pipeline di connettività gestita.
Console
Nella console Google Cloud, vai alla pagina IAM.
Seleziona il progetto in cui vuoi importare i metadati.
Fai clic su
Concedi accesso, quindi inserisci l'indirizzo email dell'account di servizio.Assegna i seguenti ruoli all'account di servizio:
- Writer log
- Dataplex Entry Group Owner
- Dataplex Metadata Job Owner
- Dataplex Catalog Editor
- Editor Dataproc
- Dataproc Worker
- Funzione di accesso ai secret di Secret Manager: nel secret che memorizza le credenziali per l'origine dati
- Storage Object User (Utente oggetto archiviazione) nel bucket Cloud Storage
- Artifact Registry Reader: nel repository Artifact Registry che contiene l'immagine del connettore
- Utente account di servizio: se utilizzi account di servizio diversi, conceda questo ruolo all'account di servizio che esegue i flussi di lavoro nell'account di servizio che esegue i job batch Dataproc Serverless
- Workflows Invoker: se vuoi pianificare la pipeline
Salva le modifiche.
gcloud
Concedi i ruoli all'account di servizio. Esegui questi comandi:
gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/logging.logWriter gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.entryGroupOwner gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.metadataJobOwner gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.catalogEditor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataproc.editor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataproc.worker
Sostituisci quanto segue:
-
PROJECT_ID
: il nome del progetto Google Cloud di destinazione in cui importare i metadati. SERVICE_ACCOUNT_ID
: l'account di servizio, ad esempiomy-service-account@my-project.iam.gserviceaccount.com
.
-
Concedi all'account di servizio i seguenti ruoli a livello di risorsa:
gcloud secrets add-iam-policy-binding SECRET_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/secretmanager.secretaccessor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/storage.objectUser \ --condition=resource.name.startsWith('projects/_/buckets/BUCKET_ID') gcloud artifacts repositories add-iam-policy-binding REPOSITORY \ --location=REPOSITORY_LOCATION \ --member=SERVICE_ACCOUNT_ID} \ --role=roles/artifactregistry.reader
Sostituisci quanto segue:
SECRET_ID
: l'ID del segreto che memorizza le credenziali per l'origine dati. Utilizza il formatoprojects/PROJECT_ID/secrets/SECRET_ID
.BUCKET_ID
: il nome del bucket Cloud Storage.REPOSITORY
: il repository Artifact Registry che contiene l'immagine del connettore.REPOSITORY_LOCATION
: la Google Cloud posizione in cui è ospitato il repository.
Concedi all'account di servizio che esegue i flussi di lavoro il ruolo
roles/iam.serviceAccountUser
all'account di servizio che esegue i job batch Dataproc Serverless. Devi concedere questo ruolo anche se utilizzi lo stesso account di servizio sia per Workflows sia per Dataproc Serverless.gcloud iam service-accounts add-iam-policy-binding \ serviceAccount:SERVICE_ACCOUNT_ID \ --member='SERVICE_ACCOUNT_ID' \ --role='roles/iam.serviceAccountUser'
Se utilizzi account di servizio diversi, il valore del flag
--member
è l'account di servizio che esegue i job batch Dataproc Serverless.Se vuoi pianificare la pipeline, concedi all'account di servizio il seguente ruolo:
gcloud projects add-iam-policy-binding PROJECT_ID \ --member="SERVICE_ACCOUNT_ID" \ --role=roles/workflows.invoker
Importa metadati
Per importare i metadati, crea ed esegui un flusso di lavoro che esegua la pipeline di connettività gestita. Se vuoi, puoi anche creare una pianificazione per l'esecuzione della pipeline.
Console
Crea il flusso di lavoro. Fornisci le seguenti informazioni:
- Account di servizio: l'account di servizio configurato nella sezione Ruoli richiesti di questo documento.
Crittografia: seleziona Google-managed encryption key.
Definisci flusso di lavoro: fornisci il seguente file di definizione:
Per eseguire la pipeline on demand, esegui il flusso di lavoro.
Fornisci i seguenti argomenti di runtime:
Sostituisci quanto segue:
-
PROJECT_ID
: il nome del progetto Google Cloud di destinazione in cui importare i metadati. -
LOCATION_ID
: la destinazione Google Cloud -
ENTRY_GROUP_ID
: l'ID del gruppo di voci in cui importare i metadati. L'ID gruppo di voci può contenere lettere minuscole, numeri e trattini.Il nome completo della risorsa di questo gruppo di voci è
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: se vuoi che la pipeline crei il gruppo di voci se non esiste già nel progetto, imposta questo valore sutrue
. -
BUCKET_ID
: il nome del bucket Cloud Storage per archiviare il file di importazione dei metadati generato dal connettore. Ogni esecuzione del flusso di lavoro crea una nuova cartella. -
SERVICE_ACCOUNT_ID
: l'account di servizio configurato nella sezione Ruoli richiesti di questo documento. L'account di servizio esegue il connettore in Dataproc Serverless. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: un elenco di parametri aggiuntivi da passare al connettore. Per esempi, consulta Sviluppare un connettore personalizzato per l'importazione dei metadati. Racchiudi ogni argomento tra virgolette doppie e separa gli argomenti con virgole. -
CONTAINER_IMAGE
: l'immagine container personalizzata del connettore ospitata in Artifact Registry. -
ENTRY_TYPES
: un elenco di tipi di voci che rientrano nell'ambito per l'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
ASPECT_TYPES
: un elenco di tipi di aspetti che rientrano nell'ambito dell'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
(Facoltativo) Per l'argomento
NETWORK_TAGS
, fornisci un elenco di tag di rete. -
(Facoltativo) Per l'argomento
NETWORK_URI
, fornisci l'URI della rete VPC che si connette all'origine dati. Se fornisci una rete, ometti l'argomento subnetwork. -
(Facoltativo) Per l'argomento
SUBNETWORK_URI
, fornisci l'URI della sottorete che si connette all'origine dati. Se fornisci una subnet, ometti l'argomento network.
A seconda della quantità di metadati importati, l'esecuzione della pipeline potrebbe richiedere diversi minuti o più. Per ulteriori informazioni su come visualizzare l'avanzamento, consulta Accedere ai risultati di esecuzione del flusso di lavoro.
Al termine dell'esecuzione della pipeline, puoi cercare i metadati importati in Dataplex Catalog.
-
(Facoltativo) Se vuoi eseguire la pipeline in base a una pianificazione, crea una pianificazione utilizzando Cloud Scheduler. Fornisci le seguenti informazioni:
- Frequenza: un'espressione unix-cron che definisce la pianificazione per eseguire la pipeline.
- Argomento del flusso di lavoro: gli argomenti di runtime per il connettore, come описано nel passaggio precedente.
- Account di servizio: l'account di servizio. L'account di servizio gestisce il programmatore.
gcloud
Salva la seguente definizione del carico di lavoro come file YAML:
Definisci le variabili Bash, crea il flusso di lavoro e, facoltativamente, crea una pianificazione per l'esecuzione della pipeline:
Sostituisci quanto segue:
-
PROJECT_ID
: il nome del progetto Google Cloud di destinazione in cui importare i metadati. -
LOCATION_ID
: la destinazione Google Cloud -
SERVICE_ACCOUNT_ID
: l'account di servizio configurato nella sezione Ruoli richiesti di questo documento. WORKFLOW_DEFINITION_FILE
: il percorso del file YAML di definizione del flusso di lavoro.WORKFLOW_NAME
: il nome del flusso di lavoro.WORKFLOW_ARGUMENTS
: gli argomenti di runtime da passare al connettore. Gli argomenti sono in formato JSON:Per Cloud Scheduler, le virgolette doppie all'interno della stringa tra virgolette vengono interpretate letteralmente utilizzando le barre rovesciate (\). Ad esempio:
--message-body="{\"argument\": \"{\\\"key\\\": \\\"value\\\"}\"}"
.Sostituisci quanto segue:
-
ENTRY_GROUP_ID
: l'ID del gruppo di voci in cui importare i metadati. L'ID gruppo di voci può contenere lettere minuscole, numeri e trattini.Il nome completo della risorsa di questo gruppo di voci è
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: se vuoi che la pipeline crei il gruppo di voci se non esiste già nel progetto, imposta questo valore sutrue
. -
BUCKET_ID
: il nome del bucket Cloud Storage per archiviare il file di importazione dei metadati generato dal connettore. Ogni esecuzione del flusso di lavoro crea una nuova cartella. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: un elenco di parametri aggiuntivi da passare al connettore. Per esempi, consulta Sviluppare un connettore personalizzato per l'importazione dei metadati. -
CONTAINER_IMAGE
: l'immagine container personalizzata del connettore ospitata in Artifact Registry. -
ENTRY_TYPES
: un elenco di tipi di voci che rientrano nell'ambito per l'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
ASPECT_TYPES
: un elenco di tipi di aspetti che rientrano nell'ambito dell'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
(Facoltativo) Per l'argomento
NETWORK_TAGS
, fornisci un elenco di tag di rete. -
(Facoltativo) Per l'argomento
NETWORK_URI
, fornisci l'URI della rete VPC che si connette all'origine dati. Se fornisci una rete, ometti l'argomento subnetwork. -
(Facoltativo) Per l'argomento
SUBNETWORK_URI
, fornisci l'URI della sottorete che si connette all'origine dati. Se fornisci una subnet, ometti l'argomento network.
-
CRON_SCHEDULE_EXPRESSION
: un'espressione cron che definisce la pianificazione per l'esecuzione della pipeline. Ad esempio, per eseguire la pianificazione ogni giorno a mezzanotte, utilizza l'espressione0 0 * * *
.
-
Per eseguire la pipeline on demand, esegui il flusso di lavoro:
Gli argomenti del flusso di lavoro sono in formato JSON, ma non sono preceduti da un carattere di escape.
A seconda della quantità di metadati importati, l'esecuzione del flusso di lavoro potrebbe richiedere diversi minuti o più. Per ulteriori informazioni su come visualizzare l'avanzamento, consulta Accedere ai risultati di esecuzione del flusso di lavoro.
Al termine dell'esecuzione della pipeline, puoi cercare i metadati importati in Dataplex Catalog.
Terraform
Clona il repository
cloud-dataplex
.Il repository include i seguenti file Terraform:
main.tf
: definisce le Google Cloud risorse da creare.variables.tf
: dichiara le variabili.byo-connector.tfvars
: definisce le variabili per la pipeline di connettività gestita.
Modifica il file
.tfvars
per sostituire i segnaposto con le informazioni per il connettore.Sostituisci quanto segue:
-
PROJECT_ID
: il nome del progetto Google Cloud di destinazione in cui importare i metadati. -
LOCATION_ID
: la destinazione Google Cloud -
SERVICE_ACCOUNT_ID
: l'account di servizio configurato nella sezione Ruoli richiesti di questo documento. -
CRON_SCHEDULE_EXPRESSION
: un'espressione cron che definisce la pianificazione per l'esecuzione della pipeline. Ad esempio, per eseguire la pianificazione ogni giorno a mezzanotte, utilizza l'espressione0 0 * * *
. -
ENTRY_GROUP_ID
: l'ID del gruppo di voci in cui importare i metadati. L'ID gruppo di voci può contenere lettere minuscole, numeri e trattini.Il nome completo della risorsa di questo gruppo di voci è
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: se vuoi che la pipeline crei il gruppo di voci se non esiste già nel progetto, imposta questo valore sutrue
. -
BUCKET_ID
: il nome del bucket Cloud Storage per archiviare il file di importazione dei metadati generato dal connettore. Ogni esecuzione del flusso di lavoro crea una nuova cartella. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: un elenco di parametri aggiuntivi da passare al connettore. Per esempi, consulta Sviluppare un connettore personalizzato per l'importazione dei metadati. Racchiudi ogni argomento tra virgolette doppie e separa gli argomenti con virgole. -
CONTAINER_IMAGE
: l'immagine container personalizzata del connettore ospitata in Artifact Registry. -
ENTRY_TYPES
: un elenco di tipi di voci che rientrano nell'ambito per l'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
ASPECT_TYPES
: un elenco di tipi di aspetti che rientrano nell'ambito dell'importazione, nel formatoprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
.LOCATION_ID
deve essere la stessa Google Cloud posizione in cui importi i metadati oglobal
. -
(Facoltativo) Per l'argomento
NETWORK_TAGS
, fornisci un elenco di tag di rete. -
(Facoltativo) Per l'argomento
NETWORK_URI
, fornisci l'URI della rete VPC che si connette all'origine dati. Se fornisci una rete, ometti l'argomento subnetwork. -
(Facoltativo) Per l'argomento
SUBNETWORK_URI
, fornisci l'URI della sottorete che si connette all'origine dati. Se fornisci una subnet, ometti l'argomento network.
-
Inizializza Terraform:
terraform init
Convalida Terraform con il file
.tfvars
:terraform plan --var-file=CONNECTOR_VARIABLES_FILE.tfvars
Sostituisci
CONNECTOR_VARIABLES_FILE
con il nome del file di definizioni delle variabili.Esegui il deployment di Terraform con il file
.tfvars
:terraform apply --var-file=CONNECTOR_VARIABLES_FILE.tfvars
Terraform crea un flusso di lavoro e un job Cloud Scheduler nel progetto specificato. Workflows esegue la pipeline secondo la pianificazione specificata.
A seconda della quantità di metadati importati, l'esecuzione del flusso di lavoro potrebbe richiedere diversi minuti o più. Per ulteriori informazioni su come visualizzare l'avanzamento, consulta Accedere ai risultati di esecuzione del flusso di lavoro.
Al termine dell'esecuzione della pipeline, puoi cercare i metadati importati in Dataplex Catalog.
Visualizza i log dei job
Utilizza Cloud Logging per visualizzare i log di una pipeline di connettività gestita. Il payload del log include un link ai log per il job batch Dataproc Serverless e il job di importazione dei metadati, se pertinente. Per ulteriori informazioni, consulta Visualizzare i log del flusso di lavoro.
Risoluzione dei problemi
Prova a seguire questi suggerimenti per la risoluzione dei problemi:
- Configura il livello di log del job di importazione per il job di metadati in modo da utilizzare il logging a livello di debug anziché il logging a livello di informazioni.
- Esamina i log del job batch Dataproc Serverless (per le esecuzioni del connettore) e del job di importazione dei metadati. Per saperne di più, consulta Eseguire query sui log di Dataproc Serverless per Spark e Eseguire query sui log dei job di metadati.
- Se non è possibile importare una voce utilizzando la pipeline e il messaggio di errore non fornisce informazioni sufficienti, prova a creare una voce personalizzata con gli stessi dettagli in un gruppo di voci di test. Per ulteriori informazioni, consulta Creare una voce personalizzata.
Passaggi successivi
- Panoramica di Dataplex Catalog
- Sviluppare un connettore personalizzato per l'importazione dei metadati