Procesa datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de fuente de Dataplex para leer datos de entidades (tablas) de Dataplex que residen Cloud Storage o BigQuery. La fuente de Dataplex te permite tratar los datos de los recursos de Cloud Storage como tablas y filtros los datos con consultas SQL simples.

Antes de comenzar

  • Crear una instancia de Cloud Data Fusion, si no tienes uno. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior

  • Los datos de origen ya deben ser parte de Dataplex zone y un recurso (ya sea un bucket de Cloud Storage o un conjunto de datos de BigQuery).

  • Para usar tablas de Cloud Storage, debes configurar un almacén de metadatos para tu lake.

  • Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.

  • No se admiten los datos CSV en las entidades de Cloud Storage.

  • En el proyecto de Dataplex, habilita el Acceso privado a Google en la de servicio, que suele estar configurada como default, o internal_ip_only como false.

Roles obligatorios

Si quieres obtener los permisos que necesitas para administrar roles, solicita a tu administrador que te otorgue el los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Si quieres obtener más información para otorgar roles, consulta Administra el acceso.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Limitaciones

  • Para recursos de Cloud Storage: este complemento no admite la lectura de CSV. Admite la lectura de los formatos JSON, Avro, Parquet y ORC.

  • Para los recursos de Cloud Storage: Fecha de inicio de la partición y Partición Fecha de finalización no son aplicables.

Agrega el complemento a tu canalización

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    Esta página te permite administrar tus instancias.

  2. Haz clic en Ver instancia para abrir tu instancia en Cloud Data Fusion. de la IU de Google.

  3. Ve a la página de Studio, expande el menú Fuente y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página de Studio, haz clic en la fuente de Dataplex para configurar sus propiedades.

Para obtener más información sobre las configuraciones, consulta la Referencia de Fuente de Dataplex.

Opcional: Comienza a usar una canalización de muestra

Hay canalizaciones de muestra disponibles, incluida una fuente de SAP para Canalización de receptor de Dataplex y fuente de Dataplex para Canalización de receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion. haz clic en Concentrador > Canalizaciones y selecciona una de las Canalizaciones de Dataplex. Se abrirá un cuadro de diálogo para ayudarte a crear la en una canalización de integración continua.

¿Qué sigue?