Cloud Data Fusion proporciona un complemento de fuente de Dataplex para leer datos de entidades (tablas) de Dataplex que residen en recursos de Cloud Storage o BigQuery. El complemento Fuente de Dataplex te permite tratar los datos de los activos de Cloud Storage como tablas y filtrar los datos con consultas SQL.
Antes de comenzar
Crea una instancia de Cloud Data Fusion si aún no tienes una. Este complemento está disponible en instancias que se ejecutan en la versión 6.6 o posterior de Cloud Data Fusion.
Los datos de origen ya deben formar parte de una zona y un recurso de Dataplex (un bucket de Cloud Storage o un conjunto de datos de BigQuery).
Para usar tablas de Cloud Storage, debes configurar un metastore para tu lago.
Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lago.
No se admiten datos CSV en entidades de Cloud Storage.
En el proyecto de Dataplex, habilita el Acceso privado a Google en la subred, que suele establecerse en
default
, o estableceinternal_ip_only
enfalse
.
Limitaciones
Para los recursos de Cloud Storage, este complemento no admite la lectura de archivos CSV. Admite la lectura de formatos JSON, Avro, Parquet y ORC.
En el caso de los activos de Cloud Storage, no se aplican las propiedades Fecha de inicio de la partición ni Fecha de finalización de la partición.
Roles obligatorios
Para obtener los permisos que necesitas para administrar roles, pídele a tu administrador que te otorgue los siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desarrollador de Dataplex (
roles/dataplex.developer
) -
Lector de datos de Dataplex (
roles/dataplex.dataReader
) -
Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lector de metadatos de Dataplex (
roles/dataplex.metadataReader
)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Agrega el complemento a tu canalización
En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
En esta página, puedes administrar tus instancias.
Haz clic en Ver instancia para abrirla en la IU de Cloud Data Fusion.
Ve a la página Studio, expande el menú Source y haz clic en Dataplex.
Configura el complemento
Después de agregar este complemento a tu canalización en la página Studio, haz clic en la fuente de Dataplex para configurar sus propiedades.
Para obtener más información sobre las configuraciones, consulta la referencia de Dataplex Source.
Opcional: Comienza con una canalización de ejemplo
Hay canalizaciones de muestra disponibles, como una fuente de SAP a la canalización de receptor de Dataplex y una fuente de Dataplex a la canalización de receptor de BigQuery.
Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Centro de noticias > Canalizaciones y selecciona una de las canalizaciones de Dataplex. Se abrirá un diálogo para ayudarte a crear la canalización.
¿Qué sigue?
- Transfiere datos con Cloud Data Fusion mediante el complemento Dataplex Sink.