Cómo procesar datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de fuente de Dataplex Universal Catalog para leer datos de entidades (tablas) de Dataplex Universal Catalog que residen en recursos de Cloud Storage o BigQuery. El complemento de fuente de Dataplex Universal Catalog te permite tratar los datos de los recursos de Cloud Storage como tablas y filtrarlos con consultas de SQL.

Antes de comenzar

  • Crea una instancia de Cloud Data Fusion si no tienes una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion 6.6 o versiones posteriores.

  • Los datos de origen ya deben formar parte de una zona y un recurso (ya sea un bucket de Cloud Storage o un conjunto de datos de BigQuery) de Dataplex Universal Catalog.

  • Para usar tablas de Cloud Storage, debes configurar un almacén de metadatos para tu lake.

  • Para que se puedan leer datos de las entidades de Cloud Storage, Dataproc Metastore debe estar adjunto al lake.

  • No se admiten los datos CSV en las entidades de Cloud Storage.

  • En el proyecto de Dataplex Universal Catalog, habilita el acceso privado a Google en la subred, que suele estar configurada como default, o configura internal_ip_only como false.

Limitaciones

  • En el caso de los recursos de Cloud Storage, este complemento no admite la lectura de archivos CSV. Admite la lectura de formatos JSON, Avro, Parquet y ORC.

  • En el caso de los recursos de Cloud Storage, no se aplican Partition Start Date ni Partition End Date.

Roles requeridos

Para obtener los permisos que necesitas para administrar roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Agrega el complemento a tu canalización

  1. En la consola de Google Cloud , ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    En esta página, puedes administrar tus instancias.

  2. Haz clic en Ver instancia para abrir tu instancia en la IU de Cloud Data Fusion.

  3. Ve a la página Studio, expande el menú Source y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en la fuente de Dataplex Universal Catalog para configurar sus propiedades.

Para obtener más información sobre la configuración, consulta la referencia de Dataplex Source.

Opcional: Comienza con una canalización de ejemplo

Hay disponibles canalizaciones de muestra, incluida una canalización de fuente de SAP a receptor de Dataplex Universal Catalog y una canalización de fuente de Dataplex Universal Catalog a receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones del catálogo universal de Dataplex. Se abrirá un diálogo para ayudarte a crear la canalización.

¿Qué sigue?