Cloud Data Fusion fornisce un plug-in sink Dataplex per importare dati in qualsiasi asset supportato da Dataplex.
Prima di iniziare
- Crea un'istanza di Cloud Data Fusion, se non ne hai una. Questo plug-in è disponibile nelle istanze eseguite in Cloud Data Fusion versione 6.6 o successive.
- Il set di dati BigQuery o il bucket Cloud Storage in cui vengono importati i dati deve far parte di un lake Dataplex.
- Per leggere i dati dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
- I dati CSV nelle entità di Cloud Storage non sono supportati.
- Nel progetto Dataplex, abilita l'accesso privato Google sulla subnet, che in genere è impostata su
default
, oppure impostainternal_ip_only
sufalse
.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire i ruoli,
chiedi all'amministratore di concederti
i seguenti ruoli IAM sull'account di servizio Dataproc e sull'account di servizio gestito da Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com
):
-
Sviluppatore Dataplex (
roles/dataplex.developer
) -
Lettore dati Dataplex (
roles/dataplex.dataReader
) -
Utente metadati Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente di servizio Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lettore metadati Dataplex (
roles/dataplex.metadataReader
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Aggiungi il plug-in alla pipeline
Nella console Google Cloud, vai alla pagina Istanze di Cloud Data Fusion.
Questa pagina ti consente di gestire le istanze.
Fai clic su Visualizza istanza per aprire l'istanza nell'interfaccia utente di Cloud Data Fusion.
Vai alla pagina Studio, espandi il menu Sink e fai clic su Dataplex.
Configura il plug-in
Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink Dataplex per configurare e salvare le relative proprietà.
Per ulteriori informazioni sulle configurazioni, consulta la sezione di riferimento Sink Dataplex.
(Facoltativo) Iniziare a utilizzare una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui una pipeline sink da un'origine SAP a Dataplex e una pipeline sink da un'origine Dataplex a BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nell'interfaccia utente di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline Dataplex. Si apre una finestra di dialogo che aiuta a creare la pipeline.
Esegui la pipeline
Dopo aver eseguito il deployment della pipeline, apri la pipeline nella pagina Studio di Cloud Data Fusion.
Fai clic su Configura > Risorse.
(Facoltativo) Modifica la CPU dell'esecutore e la memoria in base alla dimensione complessiva dei dati e al numero di trasformazioni utilizzate nella pipeline.
Fai clic su Salva.
Per avviare la pipeline dei dati, fai clic su Esegui.
Passaggi successivi
- Elabora i dati con Cloud Data Fusion utilizzando il plug-in Dataplex Source.