En este documento, se proporciona una descripción general de las canalizaciones de conectividad administrada que que puedes usar para importar metadatos de fuentes externas a Dataplex.
La conectividad administrada te permite importar metadatos a Dataplex a gran escala. Una canalización de conectividad administrada extrae metadatos de tus fuentes de datos y, luego, los importa a Dataplex. Si es necesario, la canalización también crea grupos de entradas de Dataplex Catalog proyecto de Google Cloud. Puedes organizar los flujos de trabajo y programar y importar trabajos según tus requisitos.
Creas tus propios conectores personalizados para extraer metadatos de fuentes de terceros. Por ejemplo, puedes compilar un conector para extraer metadatos de fuentes como MySQL, SQL Server, Oracle, Snowflake, Databricks y otros. Pasos para compilar un conector personalizado de muestra, consulta Desarrolla un conector personalizado para la importación de metadatos.
Si quieres conocer los pasos para ejecutar una canalización de conectividad administrada, consulta Importa metadatos desde una fuente personalizada con Workflows.
Cómo funciona la conectividad administrada
En el siguiente diagrama, se muestra una canalización de conectividad administrada.
En términos generales, la conectividad administrada funciona de la siguiente manera:
Tú crear un conector para tu fuente de datos.
El conector debe ser una imagen de Artifact Registry en la que se pueda ejecutar Dataproc sin servidores.
Ejecutas la canalización de conectividad administrada en Workflows, una plataforma de organización.
La canalización de conectividad administrada hace lo siguiente:
- Crea un grupo de entrada de destino basado en tu configuración, si la entrada grupo aún no existe.
- Ejecuta el conector. El conector extrae los metadatos de tus datos y genera un archivo de importación de metadatos al que se puede importar Catálogo de Dataplex.
- Supervisa el progreso de la extracción de metadatos.
- Ejecuta un trabajo de importación de metadatos para importarlos Catálogo de Dataplex.
- Supervisa el progreso del trabajo de importación de metadatos.
La canalización de conectividad administrada usa Dataproc Serverless para ejecutar el conector y los métodos de la API de importación de metadatos de Dataplex para ejecutar la tarea de importación de metadatos.
Los metadatos que importas consisten en entradas de Dataplex Catalog y sus aspectos. Para obtener más información sobre los metadatos de Dataplex Catalog, consulta Descripción general de Dataplex Catalog.
¿Qué sigue?
- Importa metadatos de una fuente personalizada con Workflows
- Desarrolla un conector personalizado para la importación de metadatos
- Importa metadatos con una canalización personalizada