Data Catalog puede importar y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.
Con los metadatos transferidos, Data Catalog hace lo siguiente:
- Permite que los metadatos existentes sean visibles a través de la búsqueda. Para obtener más información, consulta Cómo realizar búsquedas.
- Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales a través de etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.
Si bien la integración con las fuentes de Google Cloud es automática, para integrarse a fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:
- Configura y ejecuta los connectors correspondientes que aporta la comunidad.
- También puedes aprovechar la API de Data Catalog para entradas personalizadas.
Antes de comenzar
Si ya usas Data Catalog, debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.
Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita la API de Data Catalog.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita la API de Data Catalog.
Integrar fuentes de datos de Google Cloud
Analytics Hub
Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado en tu proyecto. Data Catalog genera automáticamente entradas de metadatos para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre los conjuntos de datos vinculados y otras funciones de Analytics Hub, consulta Introducción a Analytics Hub.
En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran como conjuntos de datos estándar de BigQuery, pero puedes filtrarlos con el predicado type=dataset.linked
. Para obtener más detalles, consulta Cómo buscar recursos de datos.
BigQuery y Pub/Sub
Si la organización ya usa BigQuery y Pub/Sub, según los permisos que tengas, puedes buscar los metadatos en esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto podrían necesitar en Identity and Access Management.
Sensitive Data Protection
Además, Data Catalog se integra en la protección de datos sensibles que te permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar resultados a Data Catalog en forma de etiquetas.
Para obtener más información, consulta Envía los resultados del análisis de la protección de datos sensibles a Data Catalog.
Bigtable
Cuando almacenas datos en Bigtable, los metadatos se sincronizan de forma automática con Data Catalog para los siguientes recursos de Bigtable:
- Instancias
- Tablas, incluidos los detalles de la familia de columnas
Si deseas obtener orientación sobre el uso de Data Catalog para descubrir y etiquetar datos, consulta Administra recursos de datos con Data Catalog en la documentación de Bigtable.
Spanner (vista previa)
Cuando almacenas datos en Spanner, los metadatos de los siguientes recursos de Spanner se sincronizan con Data Catalog:
- Instancias
- Bases de datos
- Tablas y vistas con un esquema de columnas
Si deseas obtener orientación sobre el uso de Data Catalog para descubrir y etiquetar datos, consulta Administra recursos de datos con Data Catalog.
Dataproc Metastore
Con el fin de integrar Dataproc Metastore, habilita la sincronización con Data Catalog para servicios nuevos o existentes como se describe en Habilita la sincronización de Data Catalog.
Vertex AI
Vertex AI sincroniza los metadatos de los siguientes recursos con Data Catalog:
Integra fuente de datos locales
Para integrar fuentes de datos locales, puedes usar los conectores de Python correspondientes que aportó la comunidad:
- Busca tu fuente de datos en la siguiente tabla.
- Abre su repositorio de GitHub.
- Sigue las instrucciones de configuración en el archivo readme.
Categoría | Componente | Descripción | Repositorio |
---|---|---|---|
RDBMS | mysql-connector | Código de muestra para la fuente de datos de MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Código de muestra para la fuente de datos de PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de muestra para la fuente de datos de SQL Server. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de muestra para la fuente de datos de Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de muestra para la fuente de datos de Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de muestra para la fuente de datos de Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Código de muestra para la fuente de datos de Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de muestra de la fuente de datos de Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de muestra para la transferencia genérica de CSV de RDBMS. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de muestra de la fuente de datos de Sap Hana. | google-datacatalog-saphana-connector | |
IE | looker-connector | Código de muestra para la fuente de datos de Looker. | google-datacatalog-looker-connector |
qlik-connector | Código de muestra de la fuente de datos de Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Código de muestra para la fuente de datos de Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Código de muestra para la fuente de datos de Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Código de muestra para la fuente de datos de Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integra fuente de datos no compatibles
Si no encuentras un conector para la fuente de datos, aún puedes integrarlo de forma manual mediante la creación de grupos de entradas y entradas personalizadas. Para ello, puedes hacer lo siguiente:
- Usa una de las bibliotecas cliente de Data Catalog en uno de los siguientes lenguajes: C#, Go, Java, Node.js, PHP, Python o Ruby.
- También puedes compilar de forma manual la API de Data Catalog.
Si deseas integrar tus fuentes, primero obtén información sobre las entradas y los grupos de entrada y, luego, sigue las instrucciones de Crea entradas personalizadas de Data Catalog para tus fuentes de datos.
¿Qué sigue?
- Obtén más información sobre la administración de identidades y accesos.
- Obtén más información sobre cómo buscar.
- Ve a la guía de inicio rápido Etiqueta tablas.