Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Cloud Data Fusion fornisce un plug-in sink Dataplex Universal Catalog
per l'importazione dei dati in uno qualsiasi degli asset supportati da Dataplex Universal Catalog.
Prima di iniziare
Se non hai un'istanza Cloud Data Fusion, creane una. Questo plug-in
è disponibile nelle istanze che vengono eseguite in Cloud Data Fusion versione 6.6 o
successiva. Per saperne di più, vedi
Crea un'istanza pubblica Cloud Data Fusion.
Il set di dati BigQuery o il bucket Cloud Storage
in cui vengono importati i dati deve far parte di un lake Dataplex Universal Catalog.
Affinché i dati vengano letti dalle entità Cloud Storage,
Dataproc Metastore deve essere collegato al lake.
I dati CSV nelle entità Cloud Storage non sono supportati.
Nel progetto Dataplex Universal Catalog, abilita l'accesso privato Google sulla subnet, che in genere è impostata su default, oppure imposta internal_ip_only su false.
Ruoli obbligatori
Per ottenere le autorizzazioni
necessarie per gestire i ruoli,
chiedi all'amministratore di concederti i seguenti ruoli IAM per il service agent Dataproc e il service agent Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
Questa pagina ti consente di gestire le tue istanze.
Per aprire l'istanza, fai clic su Visualizza istanza.
Vai alla pagina Studio, espandi il menu Sink e fai clic su Dataplex.
Configurare il plug-in
Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sul sink
Dataplex Universal Catalog per configurare e salvare le relative proprietà.
Per ulteriori informazioni sulle configurazioni, consulta il riferimento
Sink Dataplex.
(Facoltativo) Inizia a utilizzare una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP
a una pipeline sink di Dataplex Universal Catalog e una pipeline di origine Dataplex Universal Catalog
a una pipeline sink di BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nella UI di Cloud Data Fusion,
fai clic su Hub > Pipeline e seleziona una delle pipeline di
Dataplex Universal Catalog. Si apre una finestra di dialogo che ti aiuta a creare la
pipeline.
Esegui la pipeline
Dopo aver eseguito il deployment della pipeline, aprila nella pagina Studio di Cloud Data Fusion.
Fai clic su Configura > Risorse.
(Facoltativo) Modifica la CPU dell'executor e la memoria in base alle dimensioni complessive dei dati e al numero di trasformazioni utilizzate nella pipeline.
Fai clic su Salva.
Per avviare la pipeline di dati, fai clic su Esegui.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-05 UTC."],[[["\u003cp\u003eCloud Data Fusion's Dataplex Sink plugin enables data ingestion into Dataplex-supported assets from version 6.6 or later.\u003c/p\u003e\n"],["\u003cp\u003eUsing the plugin requires the BigQuery dataset or Cloud Storage bucket to be part of a Dataplex lake, with Dataproc Metastore attached for Cloud Storage data.\u003c/p\u003e\n"],["\u003cp\u003eSpecific IAM roles, including Dataplex Developer and Dataplex Data Reader, are needed on the Dataproc and Cloud Data Fusion service agents to manage permissions.\u003c/p\u003e\n"],["\u003cp\u003eThe Dataplex plugin can be added to your Cloud Data Fusion pipeline via the Studio page, where it can be configured and its properties saved.\u003c/p\u003e\n"],["\u003cp\u003eSample pipelines are available, including SAP to Dataplex and Dataplex to BigQuery, which can be accessed through the Cloud Data Fusion UI.\u003c/p\u003e\n"]]],[],null,["# Ingest data with Cloud Data Fusion\n\n[Cloud Data Fusion](/data-fusion) provides a Dataplex Universal Catalog Sink plugin\nfor ingesting data to any of the Dataplex Universal Catalog supported assets.\n\nBefore you begin\n----------------\n\n- If you don't have a Cloud Data Fusion instance, create one. This plugin is available in instances that run in Cloud Data Fusion version 6.6 or later. For more information, see [Create a Cloud Data Fusion public instance](/data-fusion/docs/how-to/create-instance).\n- The BigQuery dataset or Cloud Storage bucket where data is ingested must be part of a Dataplex Universal Catalog lake.\n- For data to be read from Cloud Storage entities, Dataproc Metastore must be attached to the lake.\n- CSV data in Cloud Storage entities isn't supported.\n- In the Dataplex Universal Catalog project, enable Private Google Access on the subnetwork, which is typically set to `default`, or set `internal_ip_only` to `false`.\n\n### Required roles\n\n\nTo get the permissions that\nyou need to manage roles,\n\nask your administrator to grant you the\nfollowing IAM roles on the Dataproc service agent and the Cloud Data Fusion service agent (`service-`\u003cvar translate=\"no\"\u003eCUSTOMER_PROJECT_NUMBER\u003c/var\u003e`@gcp-sa-datafusion.iam.gserviceaccount.com`):\n\n- [Dataplex Developer](/iam/docs/roles-permissions/dataplex#dataplex.developer) (`roles/dataplex.developer`)\n- [Dataplex Data Reader](/iam/docs/roles-permissions/dataplex#dataplex.dataReader) (`roles/dataplex.dataReader`)\n- [Dataproc Metastore Metadata User](/iam/docs/roles-permissions/metastore#metastore.metadataUser) (`roles/metastore.metadataUser`)\n- [Cloud Dataplex Service Agent](/iam/docs/roles-permissions/dataplex#dataplex.serviceAgent) (`roles/dataplex.serviceAgent`)\n- [Dataplex Metadata Reader](/iam/docs/roles-permissions/dataplex#dataplex.metadataReader) (`roles/dataplex.metadataReader`)\n\n\nFor more information about granting roles, see [Manage access to projects, folders, and organizations](/iam/docs/granting-changing-revoking-access).\n\n\nYou might also be able to get\nthe required permissions through [custom\nroles](/iam/docs/creating-custom-roles) or other [predefined\nroles](/iam/docs/roles-overview#predefined).\n\nAdd the plugin to your pipeline\n-------------------------------\n\n1. In the Google Cloud console, go to the Cloud Data Fusion **Instances** page.\n\n [Go to Instances](https://console.cloud.google.com/data-fusion/locations/-/instances)\n\n This page lets you manage your instances.\n2. To open your instance, click **View instance**.\n\n3. Go to the **Studio** page, expand the **Sink** menu, and click **Dataplex**.\n\nConfigure the plugin\n--------------------\n\nAfter you add this plugin to your pipeline on the **Studio** page, click the\nDataplex Universal Catalog sink to configure and save its properties.\n\nFor more information about configurations, see the\n[Dataplex Sink](https://cdap.atlassian.net/wiki/spaces/DOCS/pages/1766948865/Google+Dataplex+Sink) reference.\n\nOptional: Get started with a sample pipeline\n--------------------------------------------\n\nSample pipelines are available, including an SAP source to\nDataplex Universal Catalog sink pipeline and a Dataplex Universal Catalog source to\nBigQuery sink pipeline.\n\nTo use a sample pipeline, open your instance in the Cloud Data Fusion UI,\nclick **Hub \\\u003e Pipelines**, and select one of the\nDataplex Universal Catalog pipelines. A dialog opens to help you create the\npipeline.\n\nRun your pipeline\n-----------------\n\n1. After deploying the pipeline, open your pipeline on the Cloud Data Fusion\n **Studio** page.\n\n2. Click **Configure \\\u003e Resources**.\n\n3. Optional: Change the **Executor CPU** and **Memory** based on the overall\n data size and the number of transformations used in your pipeline.\n\n4. Click **Save**.\n\n5. To start the data pipeline, click **Run**.\n\nWhat's next\n-----------\n\n- [Process data with Cloud Data Fusion](/dataplex/docs/process-with-data-fusion) using the Dataplex Universal Catalog Source plugin."]]