Data Catalog puede transferir y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.
Con los metadatos transferidos, Data Catalog hace lo siguiente:
- Permite que los metadatos existentes sean visibles a través de la búsqueda. Para obtener más información, consulta Cómo buscar.
- Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales mediante etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.
Si bien la integración con las fuentes de Google Cloud es automática, para integrarse a fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:
- Configura y ejecuta los conectores correspondientes que aporta la comunidad.
- También puedes aprovechar la API de Data Catalog para entradas personalizadas.
Antes de comenzar
Si ya usas Data Catalog, ya debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.
Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Comprueba que la facturación esté habilitada en tu proyecto.
-
Habilita la API de Data Catalog.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Comprueba que la facturación esté habilitada en tu proyecto.
-
Habilita la API de Data Catalog.
Integrar fuentes de datos de Google Cloud
BigQuery y Pub/Sub
Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar los metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto podrían necesitar en Identity and Access Management.
Analytics Hub
Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado en tu proyecto. Data Catalog genera automáticamente entradas de metadatos para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre los conjuntos de datos vinculados y otras funciones de Analytics Hub, consulta Introducción a Analytics Hub.
En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran como conjuntos de datos estándar de BigQuery, pero puedes filtrarlos mediante el predicado type=dataset.linked
. Para obtener más información, consulte Cómo buscar recursos de datos.
Dataproc Metastore (vista previa)
A fin de integrar en Dataproc Metastore, habilita la sincronización con Data Catalog para servicios nuevos o existentes como se describe en Habilita la sincronización de Data Catalog.
Cloud Data Loss Prevention (Cloud DLP)
Además, Data Catalog se integra en Cloud Data Loss Prevention que te permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar resultados a Data Catalog en forma de etiquetas.
Para obtener más información, consulta Cómo enviar resultados de análisis de Cloud DLP a Data Catalog.
Integra fuente de datos locales
Para integrar las fuentes de datos locales, puedes usar los conectores de Python correspondientes que aporta la comunidad:
- Busque su fuente de datos en la siguiente tabla.
- Abre su repositorio de GitHub.
- Sigue las instrucciones de configuración en el archivo readme.
Categoría | Componente | Descripción | Repositorio |
---|---|---|---|
RDBMS | mysql-connector | Código de muestra para la fuente de datos de MySQL. | google-datacatalog-mysql-connector |
conector postgresql | Código de muestra para la fuente de datos de PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de muestra para la fuente de datos de SQL Server. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de muestra para la fuente de datos de Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de muestra para la fuente de datos de Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de muestra para la fuente de datos de Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Código de muestra para la fuente de datos de Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de muestra para la fuente de datos Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de muestra para la transferencia genérica de archivos CSV RDBMS. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de muestra para la fuente de datos de Sap Hana. | google-datacatalog-saphana-connector | |
IE | looker-connector | Código de muestra para la fuente de datos de Looker. | google-datacatalog-looker-connector |
qlik-connector | Código de muestra para la fuente de datos Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Código de muestra para la fuente de datos de Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Código de muestra para la fuente de datos de Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Código de muestra para la fuente de datos de Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integra fuente de datos no compatibles
Si no encuentras un conector para la fuente de datos, puedes crear grupos de entrada y entradas personalizadas de forma manual. Para ello, puedes hacer lo siguiente:
- Usa una de las bibliotecas cliente de Data Catalog en uno de los siguientes lenguajes: C#, Go, Java, Node.js, PHP, Python o Ruby.
- También puedes aprovechar la API de Data Catalog de forma manual.
Para integrar tus fuentes, primero obtén información sobre Entradas y grupos de entrada y, luego, sigue las instrucciones en Crea entradas personalizadas de Data Catalog para tus fuentes de datos.
¿Qué sigue?
- Obtén más información sobre la administración de identidades y accesos.
- Obtén información sobre cómo buscar.
- Ve a la guía de inicio rápido Etiqueta tablas.