Cloud Data Fusion proporciona un complemento de Dataplex Source para leer datos de entidades (tablas) de Dataplex que residen en recursos de Cloud Storage o BigQuery. El complemento de Dataplex Source te permite tratar los datos de los recursos de Cloud Storage como tablas y filtrarlos por consultas de SQL simples.
Antes de comenzar
Crea una instancia de Cloud Data Fusion, si no tienes una. Este complemento está disponible en instancias que se ejecutan en Cloud Data Fusion versión 6.6 o posterior.
Los datos de origen ya deben ser parte de una zona de Dataplex y un elemento (ya sea un bucket de Cloud Storage o un conjunto de datos de BigQuery).
A fin de usar tablas de Cloud Storage, debes configurar un almacén de datos para tu lake.
Para que los datos se lean desde entidades de Cloud Storage, Dataproc Metastore debe estar conectado al lake.
No se admiten datos CSV en entidades de Cloud Storage.
En el proyecto de Dataplex, habilita el Acceso privado a Google en la subred, que suele estar establecido en
default
, o configurainternal_ip_only
enfalse
.
Roles obligatorios
Para obtener los permisos que necesitas para administrar funciones, pídele al administrador que te otorgue los siguientes roles de IAM en la cuenta de servicio de Dataproc y la cuenta de servicio administrada por Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):
-
Desarrollador de Dataplex (
roles/dataplex.developer
) -
Lector de datos de Dataplex (
roles/dataplex.dataReader
) -
Usuario de metadatos de Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de servicio de Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lector de metadatos de Dataplex (
roles/dataplex.metadataReader
)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Limitaciones
En el caso de los recursos de Cloud Storage, este complemento no admite la lectura de archivos CSV. Admite la lectura desde formatos JSON, Avro, Parquet y ORC.
Para los recursos de Cloud Storage, no se aplican la Fecha de inicio de la partición ni la Fecha de finalización de la partición.
Agrega el complemento a tu canalización
En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
Esta página te permite administrar tus instancias.
Haz clic en Ver instancia para abrirla en la IU de Cloud Data Fusion.
Ve a la página Studio, expande el menú Fuente y haz clic en Dataplex.
Configura el complemento
Después de agregar este complemento a tu canalización en la página de Studio, haz clic en la fuente de Dataplex para configurar sus propiedades.
Para obtener más información sobre las opciones de configuración, consulta la referencia de fuente de Dataplex.
Opcional: Comienza a usar una canalización de muestra
Hay canalizaciones de muestra disponibles, incluida una fuente de SAP a la canalización del receptor de Dataplex y una fuente del receptor de Dataplex a la canalización del receptor de BigQuery.
Para usar una canalización de muestra, abre tu instancia en la IU de Cloud Data Fusion, haz clic en Hub> Canalizaciones y selecciona una de las canalizaciones de Dataplex. Se abrirá un cuadro de diálogo que te ayudará a crear la canalización.
¿Qué sigue?
- Transferir datos con Cloud Data Fusion con el complemento del receptor de Dataplex