Data Catalog puede importar y mantener metadatos actualizados desde varias fuentes de datos de Google Cloud y una serie de a las locales.
Con los metadatos transferidos, Data Catalog hace lo siguiente:
- Hace que los metadatos existentes sean detectables a través de la búsqueda. Para ver más consulta Cómo buscar.
- Permite a los miembros de tu organización enriquecer tus datos con funciones los metadatos empresariales mediante etiquetas. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.
Si bien la integración con las fuentes de Google Cloud es automática, integrarse en fuentes locales personalizadas que use tu organización, puedes realiza cualquiera de las siguientes acciones:
- Configurar y ejecutar los conectores correspondientes contribuido por la comunidad.
- Usa la API de Data Catalog para entradas personalizadas.
Antes de comenzar
Si ya usas Data Catalog, debes tener un proyecto con la API de Data Catalog habilitada. Más información la forma recomendada de usar varios proyectos con Data Catalog, consulta Usa plantillas de etiquetas en varios proyectos.
Si es la primera vez que interactúas con Data Catalog, haz lo siguiente:
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Data Catalog API.
Integrar fuentes de datos de Google Cloud
Analytics Hub
Cuando te suscribes a una ficha en Analytics Hub, se crea un conjunto de datos vinculado se crea en tu proyecto. Data Catalog genera automáticamente entradas de metadatos para ese conjunto de datos vinculado y todas las tablas que contiene. Para obtener más información sobre conjuntos de datos vinculados y otros Analytics Hub, consulta Introducción a Analytics Hub.
En la búsqueda de Data Catalog, los conjuntos de datos vinculados se muestran de la siguiente manera:
conjuntos de datos estándar de BigQuery, pero puedes filtrarlos
el predicado type=dataset.linked
Para obtener más detalles,
consulta Busca recursos de datos.
BigQuery y Pub/Sub
Si tu organización ya usa BigQuery y Pub/Sub, según tus permisos, puedes buscar metadatos de esas fuentes de inmediato. Si no puedes ver las entradas correspondientes en los resultados de la búsqueda, busca el roles que tú y los usuarios de tu proyecto podrían necesitar Identity and Access Management.
Bigtable
Cuando almacenas datos en Bigtable, los metadatos se sincronizan automáticamente con Data Catalog para las siguientes tablas de Bigtable recursos:
- Instancias
- Tablas, incluidos los detalles de la familia de columnas
Para obtener orientación sobre el uso de Data Catalog para el descubrimiento de datos y etiquetado, consulta Administra recursos de datos usando Data Catalog en la documentación de Bigtable.
Cloud SQL
Cloud SQL no se integra en Data Catalog, pero integrar en Dataplex Catalog Para obtener más información, consulta Integra tus fuentes de datos con Dataplex Catalog.
Dataproc Metastore
Para realizar la integración en Dataproc Metastore, habilita la sincronización para Data Catalog para servicios nuevos o existentes, como se describe en Habilita la sincronización de Data Catalog.
Protección de datos sensibles
Además, Data Catalog se integra en Sensitive Data Protection que permite analizar recursos específicos de Google Cloud en busca de datos sensibles y enviar los resultados de vuelta a Data Catalog en forma de etiquetas.
Para obtener más información, consulta Envía los resultados del análisis de Sensitive Data Protection a Data Catalog.
Spanner
Cuando almacenas datos en Spanner, los metadatos de esta recursos se sincronizan con Data Catalog:
- Instancias
- Bases de datos
- Tablas y vistas con esquema de columnas
Para obtener orientación sobre el uso de Data Catalog para el descubrimiento de datos y etiquetado, consulta Administra recursos de datos usando Data Catalog.
Vertex AI
Vertex AI sincroniza los metadatos de los siguientes recursos con Data Catalog:
- Modelos del registro de modelos
- Conjuntos de datos
- Instancias de tiendas en línea
- Vistas de funciones
- Grupos de atributos
Integra fuente de datos locales
Para integrar fuentes de datos locales, puedes usar el Conectores de Python que aportó la comunidad:
- Busca tu fuente de datos en la siguiente tabla.
- Abre el repositorio de GitHub.
- Sigue las instrucciones de configuración en el archivo readme.
Categoría | Componente | Descripción | Repositorio |
---|---|---|---|
RDBMS | mysql-connector | Código de muestra para la fuente de datos de MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Código de muestra para la fuente de datos de PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de muestra para la fuente de datos de SQL Server. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de muestra para la fuente de datos de Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de muestra para la fuente de datos de Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de muestra para la fuente de datos de Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Código de muestra para la fuente de datos de Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de muestra para la fuente de datos Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de muestra para la transferencia de archivos CSV de RDBMS genéricos. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de muestra para la fuente de datos de SAP Hana. | google-datacatalog-saphana-connector | |
IE | looker-connector | Código de muestra para la fuente de datos de Looker. | google-datacatalog-looker-connector |
qlik-connector | Código de muestra para la fuente de datos de Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Código de muestra para la fuente de datos de Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Código de muestra para la fuente de datos de Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Código de muestra para la fuente de datos de Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integra fuente de datos no compatibles
Si no encuentras un conector para tu fuente de datos, aún puedes hacerlo de forma manual. integrarlo creando grupos de entrada y entradas personalizadas. Para ello, puedes hacer lo siguiente:
- Usa uno de los Bibliotecas cliente de Data Catalog en uno de los siguientes lenguajes: C#, Go, Java, Node.js, PHP, Python o Ruby.
- También puedes compilar manualmente a partir del API de Data Catalog.
Para integrar tus fuentes, primero obtén información sobre Entradas y grupos de entradas, luego sigue las instrucciones de Crea entradas personalizadas de Data Catalog para tus fuentes de datos.
¿Qué sigue?
- Obtén más información sobre la administración de identidades y accesos.
- Obtén información sobre cómo buscar.
- Ve a la guía de inicio rápido Etiqueta tablas.