Transfiere datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de receptor de Dataplex para transferir datos a cualquiera de los recursos compatibles con Dataplex.

Antes de comenzar

  • Crea una instancia de Cloud Data Fusion, si no tienes una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior.
  • El conjunto de datos de BigQuery o el bucket de Cloud Storage al que se transfieren datos debe ser parte de un lake de Dataplex.
  • Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
  • No se admiten los datos CSV en entidades de Cloud Storage.
  • En el proyecto de Dataplex, habilita el Acceso privado a Google en la subred, que suele estar configurada como default, o bien configura internal_ip_only como false.

Funciones obligatorias

A fin de obtener los permisos que necesitas para administrar los roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en la cuenta de servicio de Dataproc y en la cuenta de servicio administrada por Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):

Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios mediante funciones personalizadas, o bien otras funciones predefinidas.

Agrega el complemento a tu canalización

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    En esta página, puedes administrar tus instancias.

  2. Haz clic en Ver instancia para abrir la instancia en la IU de Cloud Data Fusion.

  3. Ve a la página Studio, expande el menú Receptor y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Dataplex para configurar y guardar sus propiedades.

Para obtener más información sobre la configuración, consulta la referencia del receptor de Dataplex.

Comienza a usar una canalización de muestra (opcional)

Hay canalizaciones de muestra disponibles, que incluyen una fuente de SAP a la canalización del receptor de Dataplex y una fuente de Dataplex a la canalización del receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Hub > Pipelines y selecciona una de las canalizaciones de Dataplex. Se abrirá un cuadro de diálogo que te ayudará a crear la canalización.

Ejecuta tu canalización

  1. Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.

  2. Haz clic en Configurar > Recursos.

  3. Opcional: Cambia la CPU del ejecutor y la Memoria en función del tamaño general de los datos y la cantidad de transformaciones que se usen en la canalización.

  4. Haz clic en Guardar.

  5. Para iniciar la canalización de datos, haz clic en Ejecutar.

¿Qué sigue?