Se usó la API de Cloud Translation para traducir esta página.

Cómo transferir datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de receptor de Dataplex Universal Catalog para transferir datos a cualquiera de los recursos compatibles con Dataplex Universal Catalog.

Antes de comenzar

Si no tienes una instancia de Cloud Data Fusion, crea una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion 6.6 o versiones posteriores. Para obtener más información, consulta Crea una instancia pública de Cloud Data Fusion.
El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se transfieren los datos deben formar parte de un lake de Dataplex Universal Catalog.
Para que se puedan leer datos de las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
No se admiten los datos CSV en las entidades de Cloud Storage.
En el proyecto de Dataplex Universal Catalog, habilita el Acceso privado a Google en la subred, que suele establecerse en default, o bien establece internal_ip_only en false.

Roles requeridos

Para obtener los permisos que necesitas para administrar roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Desarrollador de Dataplex (roles/dataplex.developer)
Lector de datos de Dataplex (roles/dataplex.dataReader)
Usuario de metadatos de Dataproc Metastore (roles/metastore.metadataUser)
Agente de servicio de Cloud Dataplex (roles/dataplex.serviceAgent)
Lector de metadatos de Dataplex (roles/dataplex.metadataReader)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Agrega el complemento a tu canalización

En la consola de Google Cloud , ve a la página Instancias de Cloud Data Fusion.

Ir a Instancias

En esta página, puedes administrar tus instancias.
Para abrir tu instancia, haz clic en Ver instancia.
Ve a la página Studio, expande el menú Receptor y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Dataplex Universal Catalog para configurar y guardar sus propiedades.

Para obtener más información sobre la configuración, consulta la referencia de Dataplex Sink.

Opcional: Comienza con una canalización de ejemplo

Hay disponibles canalizaciones de muestra, incluida una canalización de fuente de SAP a receptor de Dataplex Universal Catalog y una canalización de fuente de Dataplex Universal Catalog a receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones del catálogo universal de Dataplex. Se abrirá un diálogo para ayudarte a crear la canalización.

Ejecuta tu canalización

Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.
Haz clic en Configurar > Recursos.
Opcional: Cambia la CPU del ejecutor y la memoria según el tamaño general de los datos y la cantidad de transformaciones usadas en tu canalización.
Haz clic en Guardar.
Para iniciar la canalización de datos, haz clic en Ejecutar.

¿Qué sigue?

Procesa datos con Cloud Data Fusion usando el complemento de origen de Dataplex Universal Catalog.

Cómo transferir datos con Cloud Data Fusion Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.