Integra tus fuentes de datos con Data Catalog

Data Catalog puede importar y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.

Con los metadatos transferidos, Data Catalog hace lo siguiente:

  • Hace que los metadatos existentes sean detectables a través de la búsqueda. Para obtener más información, consulta Cómo buscar.
  • Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales a través de etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Si bien la integración con las fuentes de Google Cloud es automática, para integrarse a fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:

Antes de comenzar

Si ya usas Data Catalog, ya debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.

Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita la API de Data Catalog.

    Habilita la API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita la API de Data Catalog.

    Habilita la API

Integrar fuentes de datos de Google Cloud

Analytics Hub

Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado en tu proyecto. Data Catalog genera entradas de metadatos de forma automática para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre los conjuntos de datos vinculados y otras funciones de Analytics Hub, consulta Introducción a Analytics Hub.

En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran como conjuntos de datos estándar de BigQuery, pero puedes filtrarlos mediante el predicado type=dataset.linked. Para obtener más detalles, consulta Busca recursos de datos.

BigQuery y Pub/Sub

Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar los metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto pueden necesitar en Identity and Access Management.

Bigtable

Cuando almacenas datos en Bigtable, los metadatos se sincronizan de manera automática con Data Catalog para los siguientes recursos de Bigtable:

  • Instancias
  • Tablas, incluidos los detalles de la familia de columnas

Si deseas obtener orientación sobre el uso de Data Catalog para el descubrimiento y el etiquetado de datos, consulta Administra recursos de datos con Data Catalog en la documentación de Bigtable.

Dataproc Metastore

A fin de realizar la integración en Dataproc Metastore, habilita la sincronización con Data Catalog para servicios nuevos o existentes, como se describe en Habilita la sincronización de Data Catalog.

Protección de datos sensibles

Además, Data Catalog se integra en la protección de datos sensibles, que te permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar resultados de vuelta a Data Catalog en forma de etiquetas.

Para obtener más información, consulta Envía los resultados del análisis de Sensitive Data Protection a Data Catalog.

Spanner (vista previa)

Cuando almacenas datos en Spanner, los metadatos de los siguientes recursos de Spanner se sincronizan con Data Catalog:

  • Instancias
  • Bases de datos
  • Tablas y vistas con esquema de columnas

Si deseas obtener orientación sobre el uso de Data Catalog para el descubrimiento y el etiquetado de datos, consulta Administra recursos de datos con Data Catalog.

Vertex AI

Vertex AI sincroniza los metadatos de los siguientes recursos con Data Catalog:

Integra fuente de datos locales

Para integrar fuentes de datos locales, puedes usar los conectores de Python correspondientes que aporta la comunidad:

  1. Busca tu fuente de datos en la siguiente tabla.
  2. Abre el repositorio de GitHub.
  3. Sigue las instrucciones de configuración en el archivo readme.
Categoría Componente Descripción Repositorio
RDBMS mysql-connector Código de muestra para la fuente de datos de MySQL. google-datacatalog-mysql-connector
postgresql-connector Código de muestra para la fuente de datos de PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de muestra para la fuente de datos de SQL Server. google-datacatalog-sqlserver-connector
redshift-connector Código de muestra para la fuente de datos de Redshift. google-datacatalog-redshift-connector
oracle-connector Código de muestra para la fuente de datos de Oracle. google-datacatalog-oracle-connector
teradata-connector Código de muestra para la fuente de datos de Teradata. google-datacatalog-teradata-connector
vertica-connector Código de muestra para la fuente de datos de Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de muestra para la fuente de datos Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de muestra para la transferencia de archivos CSV de RDBMS genéricos. google-datacatalog-rdbmscsv-connector
saphana-connector Código de muestra para la fuente de datos de SAP Hana. google-datacatalog-saphana-connector
IE looker-connector Código de muestra para la fuente de datos de Looker. google-datacatalog-looker-connector
qlik-connector Código de muestra para la fuente de datos de Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Código de muestra para la fuente de datos de Tableau. google-datacatalog-tableau-connector
Hive hive-connector Código de muestra para la fuente de datos de Hive. google-datacatalog-hive-connector
apache-atlas-connector Código de muestra para la fuente de datos de Apache Atlas. google-datacatalog-apache-atlas-connector

Integra fuente de datos no compatibles

Si no puedes encontrar un conector para tu fuente de datos, aún puedes integrarlo de forma manual creando grupos de entrada y entradas personalizadas. Para ello, puedes hacer lo siguiente:

Para integrar las fuentes, primero obtén información sobre las entradas y los grupos de entradas y, luego, sigue las instrucciones en Crea entradas personalizadas de Data Catalog para las fuentes de datos.

¿Qué sigue?