Integra tus fuentes de datos con Data Catalog

Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Data Catalog puede transferir y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.

Con los metadatos transferidos, Data Catalog hace lo siguiente:

  • Permite que los metadatos existentes sean visibles a través de la búsqueda. Para obtener más información, consulta Cómo buscar.
  • Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales mediante etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Si bien la integración con las fuentes de Google Cloud es automática, para integrarse a fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:

Antes de comenzar

Si ya usas Data Catalog, ya debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.

Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita la API de Data Catalog.

    Habilita la API

  5. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  7. Habilita la API de Data Catalog.

    Habilita la API

Integrar fuentes de datos de Google Cloud

BigQuery y Pub/Sub

Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar los metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto podrían necesitar en Identity and Access Management.

Analytics Hub

Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado en tu proyecto. Data Catalog genera automáticamente entradas de metadatos para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre los conjuntos de datos vinculados y otras funciones de Analytics Hub, consulta Introducción a Analytics Hub.

En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran como conjuntos de datos estándar de BigQuery, pero puedes filtrarlos mediante el predicado type=dataset.linked. Para obtener más información, consulte Cómo buscar recursos de datos.

Dataproc Metastore (vista previa)

A fin de integrar en Dataproc Metastore, habilita la sincronización con Data Catalog para servicios nuevos o existentes como se describe en Habilita la sincronización de Data Catalog.

Cloud Data Loss Prevention (Cloud DLP)

Además, Data Catalog se integra en Cloud Data Loss Prevention que te permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar resultados a Data Catalog en forma de etiquetas.

Para obtener más información, consulta Cómo enviar resultados de análisis de Cloud DLP a Data Catalog.

Integra fuente de datos locales

Para integrar las fuentes de datos locales, puedes usar los conectores de Python correspondientes que aporta la comunidad:

  1. Busque su fuente de datos en la siguiente tabla.
  2. Abre su repositorio de GitHub.
  3. Sigue las instrucciones de configuración en el archivo readme.

Categoría Componente Descripción Repositorio
RDBMS mysql-connector Código de muestra para la fuente de datos de MySQL. google-datacatalog-mysql-connector
conector postgresql Código de muestra para la fuente de datos de PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de muestra para la fuente de datos de SQL Server. google-datacatalog-sqlserver-connector
redshift-connector Código de muestra para la fuente de datos de Redshift. google-datacatalog-redshift-connector
oracle-connector Código de muestra para la fuente de datos de Oracle. google-datacatalog-oracle-connector
teradata-connector Código de muestra para la fuente de datos de Teradata. google-datacatalog-teradata-connector
vertica-connector Código de muestra para la fuente de datos de Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de muestra para la fuente de datos Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de muestra para la transferencia genérica de archivos CSV RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de muestra para la fuente de datos de Sap Hana. google-datacatalog-saphana-connector
IE looker-connector Código de muestra para la fuente de datos de Looker. google-datacatalog-looker-connector
qlik-connector Código de muestra para la fuente de datos Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Código de muestra para la fuente de datos de Tableau. google-datacatalog-tableau-connector
Hive hive-connector Código de muestra para la fuente de datos de Hive. google-datacatalog-hive-connector
apache-atlas-connector Código de muestra para la fuente de datos de Apache Atlas. google-datacatalog-apache-atlas-connector

Integra fuente de datos no compatibles

Si no encuentras un conector para la fuente de datos, puedes crear grupos de entrada y entradas personalizadas de forma manual. Para ello, puedes hacer lo siguiente:

Para integrar tus fuentes, primero obtén información sobre Entradas y grupos de entrada y, luego, sigue las instrucciones en Crea entradas personalizadas de Data Catalog para tus fuentes de datos.

¿Qué sigue?