Procesar datos con Cloud Data Fusion

Cloud Data Fusion proporciona un complemento de fuente de Universal Catalog de Dataplex para leer datos de entidades de Universal Catalog de Dataplex (tablas) que se encuentran en los recursos de Cloud Storage o de BigQuery. El complemento Dataplex Universal Catalog Source te permite tratar los datos de los recursos de Cloud Storage como tablas y filtrar los datos con consultas SQL.

Antes de empezar

  • Crea una instancia de Cloud Data Fusion si aún no tienes una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion 6.6 o versiones posteriores.

  • Los datos de origen ya deben formar parte de una zona de Universal Catalog de Dataplex y de un recurso (un segmento de Cloud Storage o un conjunto de datos de BigQuery).

  • Para usar tablas de Cloud Storage, debe configurar un metastore para su lago.

  • Para que se puedan leer datos de entidades de Cloud Storage, Dataproc Metastore debe estar asociado al lago.

  • No se admiten datos CSV en entidades de Cloud Storage.

  • En el proyecto de Dataplex Universal Catalog, habilita el acceso privado a Google en la subred, que suele estar configurada como default, o configura internal_ip_only como false.

Limitaciones

  • En el caso de los recursos de Cloud Storage, este complemento no admite la lectura de archivos CSV. Admite la lectura de formatos JSON, Avro, Parquet y ORC.

  • En el caso de los recursos de Cloud Storage, no se aplican los campos Fecha de inicio de la partición y Fecha de finalización de la partición.

Roles obligatorios

Para obtener los permisos que necesitas para gestionar roles, pide a tu administrador que te conceda los siguientes roles de IAM en el agente de servicio de Dataproc y en el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Añadir el complemento a tu flujo de trabajo

  1. En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.

    Ir a Instancias

    En esta página puedes gestionar tus instancias.

  2. Haz clic en Ver instancia para abrir tu instancia en la interfaz de usuario de Cloud Data Fusion.

  3. Ve a la página Studio, despliega el menú Source (Fuente) y haz clic en Dataplex.

Configurar el complemento

Después de añadir este complemento a tu canalización en la página Studio, haz clic en la fuente Dataplex Universal Catalog para configurar sus propiedades.

Para obtener más información sobre las configuraciones, consulta la referencia de fuente de Dataplex.

Opcional: Empezar con una canalización de ejemplo

Hay disponibles flujos de procesamiento de ejemplo, como un flujo de procesamiento de una fuente de SAP a un receptor de Dataplex Universal Catalog y un flujo de procesamiento de una fuente de Dataplex Universal Catalog a un receptor de BigQuery.

Para usar un flujo de procesamiento de ejemplo, abra su instancia en la interfaz de usuario de Cloud Data Fusion, haga clic en Hub > Pipelines y seleccione uno de los flujos de procesamiento de catálogo universal de Dataplex. Se abrirá un cuadro de diálogo para ayudarte a crear la pipeline.

Siguientes pasos