Integrar tus fuentes de datos con Data Catalog

Data Catalog puede transferir y mantener metadatos actualizados de varias fuentes de datos de Google Cloud, así como de varias fuentes locales populares.

Con los metadatos transferidos, Data Catalog hace lo siguiente:

  • Permite que los metadatos existentes sean detectables a través de la búsqueda. Para obtener más información, consulta Cómo buscar.
  • Permite que los miembros de tu organización enriquezcan tus datos con metadatos empresariales adicionales mediante etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Si bien la integración con fuentes de Google Cloud es automática, para realizar la integración en fuentes locales personalizadas que usa tu organización, puedes hacer lo siguiente:

Antes de comenzar

Si ya usas Data Catalog, debes tener un proyecto con la API de Data Catalog habilitada. Para obtener más información sobre la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.

Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita la API Data Catalog.

    Habilita la API

  5. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  7. Habilita la API Data Catalog.

    Habilita la API

Integrar fuentes de datos de Google Cloud

BigQuery y Pub/Sub

Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar los metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca las funciones de IAM que tú y los usuarios de tu proyecto pueden necesitar en la administración de identidades y accesos.

Dataproc Metastore (vista previa)

A fin de integrar en Dataproc Metastore, habilita la sincronización en Data Catalog para servicios nuevos o existentes, como se describe en Habilita la sincronización de Data Catalog.

Cloud Data Loss Prevention (Cloud DLP)

Además, Data Catalog se integra en Cloud Data Loss Prevention que te permite analizar recursos específicos de Google Cloud para obtener datos sensibles y enviar resultados a Data Catalog en forma de etiquetas.

Para obtener más información, consulta Envía los resultados del análisis de Cloud DLP a Data Catalog.

Integrar fuentes de datos locales

Para integrar fuentes de datos locales, puedes usar los conectores de Python correspondientes que aporta la comunidad:

  1. Busque su fuente de datos en la siguiente tabla.
  2. Abre su repositorio de GitHub.
  3. Sigue las instrucciones de configuración en el archivo readme.

Categoría Componente Descripción Repositorio
RDBMS mysql-connector Código de muestra para la fuente de datos de MySQL. google-datacatalog-mysql-connector
postgresql-connector Código de muestra para la fuente de datos de PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de muestra para la fuente de datos de SQL Server. google-datacatalog-sqlserver-connector
conector de mayúsculas Código de muestra para la fuente de datos de Redshift. google-datacatalog-redshift-connector
conector de oráculo Código de muestra para la fuente de datos de Oracle. google-datacatalog-oracle-connector
teradata-connector Código de muestra para la fuente de datos de Teradata. google-datacatalog-teradata-connector
conector de vertica Código de muestra para la fuente de datos de Vertica. google-datacatalog-vertica-connector.
conector greenplum Código de muestra para la fuente de datos Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de muestra para la transferencia genérica de CSV a RDBMS. google-datacatalog-rdbmscsv-connector
conector de safana Código de muestra para la fuente de datos Sap Hana. google-datacatalog-saphana-connector
IE conector de aspecto Código de muestra para la fuente de datos de Looker. google-datacatalog-Looker-connector
conector qlik Código de muestra para la fuente de datos de Qlik Sense. google-datacatalog-qlik-connector
conector de tabla Código de muestra para la fuente de datos de Tableau. google-datacatalog-tableau-connector
Hive conector de subárbol Código de muestra para la fuente de datos de Hive. google-datacatalog-hive-connector
apache-atlas-connector Código de muestra para la fuente de datos de Apache Atlas. google-datacatalog-apache-atlas-connector

Cómo integrar fuentes de datos no admitidas

Si no encuentras un conector para la fuente de datos, aún puedes integrarlo de forma manual mediante la creación de grupos de entradas y entradas personalizadas. Para hacerlo, siga estos pasos:

Para integrar tus fuentes, primero consulta lo siguiente:Entradas y grupos de entradas Luego, sigue las instrucciones que se indican en la secciónCrea entradas personalizadas de Data Catalog para tus fuentes de datos ,

¿Qué sigue?