Integra tus fuentes de datos con Data Catalog

Data Catalog puede transferir y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.

Con los metadatos transferidos, Data Catalog hace lo siguiente:

  • Permite que los metadatos existentes sean detectables a través de la búsqueda. Para obtener más información, consulta Cómo buscar.
  • Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales mediante etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Si bien la integración con las fuentes de Google Cloud es automática, para integrarse a fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:

Antes de comenzar

Si ya usas Data Catalog, ya debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la manera recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.

Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita la API de Data Catalog.

    Habilita la API

  5. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  7. Habilita la API de Data Catalog.

    Habilita la API

Integrar fuentes de datos de Google Cloud

BigQuery y Pub/Sub

Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar los metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto podrían necesitar en Administración de identidades y accesos.

Analytics Hub (vista previa)

Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado en tu proyecto. Data Catalog genera de forma automática entradas de metadatos para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre los conjuntos de datos vinculados y otras funciones de Analytics Hub, consulta Introducción a Analytics Hub.

En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran como conjuntos de datos estándar de BigQuery, pero puedes filtrarlos con el predicado type=dataset.linked. Para obtener más información, consulte Cómo buscar recursos de datos.

Dataproc Metastore (vista previa)

A fin de realizar la integración en Dataproc Metastore, habilita la sincronización con Data Catalog para servicios nuevos o existentes, como se describe en Habilita la sincronización de Data Catalog.

Cloud Data Loss Prevention (Cloud DLP)

Además, Data Catalog se integra en Cloud Data Loss Prevention que te permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar resultados a Data Catalog en forma de etiquetas.

Para obtener más información, consulta Envía resultados de análisis de Cloud DLP a Data Catalog.

Integra fuente de datos locales

Para integrar las fuentes de datos locales, puedes usar los conectores de Python correspondientes que aporta la comunidad:

  1. Busque su fuente de datos en la tabla que aparece a continuación.
  2. Abre su repositorio de GitHub.
  3. Sigue las instrucciones de configuración en el archivo readme.

Categoría Componente Descripción Repositorio
RDBMS mysql-connector Código de muestra para la fuente de datos de MySQL. google-datacatalog-mysql-connector
Conector postgresql Código de muestra para la fuente de datos de PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de muestra para la fuente de datos de SQL Server. google-datacatalog-sqlserver-connector
redshift-connector Código de muestra para la fuente de datos de Redshift. google-datacatalog-redshift-connector
oracle-connector Código de muestra para la fuente de datos de Oracle. google-datacatalog-oracle-connector
teradata-connector Código de muestra para la fuente de datos de Teradata. google-datacatalog-teradata-connector
vertica-connector Código de muestra para la fuente de datos de Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de muestra para la fuente de datos Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de muestra para transferencia genérica de CSV de RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de muestra para la fuente de datos Sap Hana. google-datacatalog-saphana-connector
IE looker-connector Código de muestra para la fuente de datos de Looker. google-datacatalog-looker-connector
qlik-connector Código de muestra para la fuente de datos de Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Código de muestra de la fuente de datos de Tableau. google-datacatalog-tableau-connector
Hive hive-connector Código de muestra para la fuente de datos de Hive. google-datacatalog-hive-connector
apache-atlas-connector Código de muestra para la fuente de datos de Apache Atlas. google-datacatalog-apache-atlas-connector

Integra fuente de datos no compatibles

Si no encuentras un conector para la fuente de datos, puedes integrarlo de forma manual si creas grupos de entrada y entradas personalizadas. Para ello, puedes hacer lo siguiente:

Para integrar tus fuentes, primero aprende sobre Entradas y grupos de entrada y, luego, sigue las instrucciones de Crea entradas personalizadas de Data Catalog para tus fuentes de datos.

¿Qué sigue?