En este documento, se proporciona una descripción general de las canalizaciones de conectividad administradas que puedes usar para importar metadatos de fuentes externas a Dataplex Universal Catalog.
La conectividad administrada te permite importar metadatos a Dataplex Universal Catalog a gran escala. Una canalización de conectividad administrada extrae metadatos de tus fuentes de datos y, luego, los importa a Dataplex Universal Catalog. Si es necesario, la canalización también crea grupos de entradas de Dataplex Universal Catalog en tu proyecto deGoogle Cloud . Puedes coordinar los flujos de trabajo y programar los trabajos de importación según tus requisitos.
Creas tus propios conectores personalizados para extraer metadatos de fuentes de terceros. Por ejemplo, puedes compilar un conector para extraer metadatos de fuentes como MySQL, SQL Server, Oracle, Snowflake, Databricks y otras. Si deseas conocer los pasos para compilar un conector personalizado de muestra, consulta Desarrolla un conector personalizado para la importación de metadatos. También puedes usar los conectores personalizados aportados por la comunidad que están disponibles para una variedad de fuentes de terceros.
Si deseas conocer los pasos para ejecutar una canalización de conectividad administrada, consulta Cómo importar metadatos desde una fuente personalizada con Workflows.
Cómo funciona la conectividad administrada
En el siguiente diagrama, se muestra una canalización de conectividad administrada.
En términos generales, la conectividad administrada funciona de la siguiente manera:
Crea un conector para tu fuente de datos.
El conector debe ser una imagen de Artifact Registry que se pueda ejecutar en Dataproc Serverless.
Ejecutas la canalización de conectividad administrada en Workflows, una plataforma de organización.
La canalización de conectividad administrada hace lo siguiente:
- Crea un grupo de entrada de destino según tu configuración, si el grupo de entrada aún no existe.
- Ejecuta el conector. El conector extrae los metadatos de tu fuente de datos y genera un archivo de importación de metadatos que se puede importar a Dataplex Universal Catalog.
- Supervisa el progreso de la extracción de metadatos.
- Ejecuta un trabajo de importación de metadatos para importar los metadatos a Dataplex Universal Catalog.
- Supervisa el progreso del trabajo de importación de metadatos.
La canalización de conectividad administrada usa Dataproc Serverless para ejecutar el conector y los métodos de la API de importación de metadatos del catálogo universal de Dataplex para ejecutar el trabajo de importación de metadatos.
Los metadatos que importas constan de entradas de Dataplex Universal Catalog y sus aspectos. Para obtener más información sobre los metadatos de Dataplex Universal Catalog, consulta Acerca de la administración de metadatos en Dataplex Universal Catalog.
Conectores personalizados que aporta la comunidad
Para importar metadatos de fuentes externas, puedes usar conectores personalizados que aporta la comunidad. Consulta el archivo README de cada conector para obtener instrucciones de configuración y más información sobre el conector.
Fuente de datos | Repositorio |
---|---|
MySQL | mysql-connector |
Oracle | oracle-connector |
PostgreSQL | postgresql-connector |
Snowflake | snowflake-connector |
SQL Server | sql-server-connector |
¿Qué sigue?
- Importa metadatos desde una fuente personalizada con Workflows
- Desarrolla un conector personalizado para la importación de metadatos
- Importa metadatos con una canalización personalizada