Procesa datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de Dataplex Source para leer datos de entidades (tablas) de Dataplex que residen en recursos de Cloud Storage o BigQuery. El complemento de Dataplex Source te permite tratar los datos en los recursos de Cloud Storage como tablas y filtrarlos con consultas simples de SQL.

Antes de comenzar

  • Crea una instancia de Cloud Data Fusion, si no tienes una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior.

  • Los datos de origen ya deben ser parte de una zona de Dataplex o de un recurso (ya sea un bucket de Cloud Storage o un conjunto de datos de BigQuery).

  • Para usar tablas de Cloud Storage, debes configurar un almacén de metadatos para el lake.

  • Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.

  • No se admiten los datos CSV en entidades de Cloud Storage.

  • En el proyecto de Dataplex, habilita el Acceso privado a Google en la subred, que suele estar configurada como default, o bien configura internal_ip_only como false.

Funciones obligatorias

Pídele a tu administrador que te otorgue los siguientes roles de IAM en la cuenta de servicio de Dataproc y en la cuenta de servicio administrada por Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):

Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios mediante funciones personalizadas, o bien otras funciones predefinidas.

Limitaciones

  • Para los elementos de Cloud Storage: este complemento no admite la lectura de archivos CSV. Admite la lectura de formatos JSON, Avro, Parquet y ORC.

  • Para los elementos de Cloud Storage: la Fecha de inicio de la partición y la Fecha de finalización de la partición no son aplicables.

Agrega el complemento a tu canalización

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    En esta página, puedes administrar tus instancias.

  2. Haz clic en Ver instancia para abrir la instancia en la IU de Cloud Data Fusion.

  3. Ve a la página Studio, expande el menú Fuente y haz clic en Dataplex.

Cómo configurar el complemento

Después de agregar este complemento a tu canalización en la página Studio, haz clic en la fuente de Dataplex para configurar sus propiedades.

Para obtener más información sobre la configuración, consulta la referencia de la fuente de Dataplex.

Comienza a usar una canalización de muestra (opcional)

Hay canalizaciones de muestra disponibles, que incluyen una fuente de SAP a la canalización del receptor de Dataplex y una fuente de Dataplex a la canalización del receptor de BigQuery.

Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Hub > Pipelines y selecciona una de las canalizaciones de Dataplex. Se abrirá un cuadro de diálogo que te ayudará a crear la canalización.

¿Qué sigue?