Cloud Data Fusion proporciona un complemento de receptor de Dataplex para transferir datos a cualquiera de los recursos compatibles con Dataplex.
Antes de comenzar
- Crea un Una instancia de Cloud Data Fusion, si no tienes una. Este complemento es disponibles en instancias que se ejecutan en la versión 6.6 de Cloud Data Fusion o más adelante.
- El conjunto de datos de BigQuery o el bucket de Cloud Storage en el que se transfieren los datos deben ser parte de un lake de Dataplex.
- Para que los datos se lean desde las entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lago.
- No se admiten datos CSV en entidades de Cloud Storage.
- En el proyecto de Dataplex, habilita el Acceso privado a Google en
la subred, que suele estar establecida en
default
, o establecerinternal_ip_only
afalse
.
Roles obligatorios
Si quieres obtener los permisos que necesitas para administrar roles,
solicita a tu administrador que te otorgue el
siguientes roles de IAM en el agente de servicio de Dataproc y el agente de servicio de Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Desarrollador de Dataplex (
roles/dataplex.developer
) -
Lector de datos de Dataplex (
roles/dataplex.dataReader
) -
Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lector de metadatos de Dataplex (
roles/dataplex.metadataReader
)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Agrega el complemento a tu canalización
En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
En esta página, puedes administrar tus instancias.
Haz clic en Ver instancia para abrirla en la IU de Cloud Data Fusion.
Ve a la página Studio, expande el menú Sink y haz clic en Dataplex.
Cómo configurar el complemento
Después de agregar este complemento a tu canalización en la página Studio, haz clic en el receptor de Dataplex para configurar y guardar sus propiedades.
Para obtener más información sobre las configuraciones, consulta la referencia de Dataplex Sink.
Opcional: Comienza a usar una canalización de muestra
Hay canalizaciones de muestra disponibles, como una fuente de SAP a la canalización de receptor de Dataplex y una fuente de Dataplex a la canalización de receptor de BigQuery.
Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion. haz clic en Concentrador > Canalizaciones y selecciona una de las Canalizaciones de Dataplex. Se abrirá un diálogo para ayudarte a crear la canalización.
Ejecuta tu canalización
Después de implementar la canalización, ábrela en la página Studio de Cloud Data Fusion.
Haz clic en Configurar > Recursos.
Opcional: Cambia la CPU del ejecutor y la memoria según el tamaño general de los datos y la cantidad de transformaciones usadas en tu canalización.
Haz clic en Guardar.
Para iniciar la canalización de datos, haz clic en Run.
¿Qué sigue?
- Procesa datos con Cloud Data Fusion mediante el complemento de fuente de Dataplex.