La función Data Catalog de Dataplex es un inventario central de los recursos de datos de una organización. Data Catalog cataloga automáticamente los metadatos de fuentes de Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable y mucho más. Data Catalog también indexa los metadatos de tablas y conjuntos de archivos de Cloud Storage a través del descubrimiento.
Puedes descubrir datos con la función de búsqueda de metadatos controlada por la organización de Dataplex. Puedes enriquecer aún más los metadatos con el contexto comercial fundamental y habilitar el seguimiento de linajes, la generación de perfiles de datos, las verificaciones de calidad de los datos y las funciones de control de acceso.
Con Data Catalog, las organizaciones pueden lograr un mejor descubrimiento de datos, administración de metadatos y gobernanza.
¿Por qué necesitas Data Catalog?
La mayoría de las organizaciones deben administrar una cantidad cada vez más grande de recursos de datos. Las partes interesadas en los datos (como los consumidores, productores y administradores) dentro de una organización deben enfrentar diversos desafíos, incluidos los siguientes:
Búsqueda de datos detallados:
- Los consumidores de datos no conocen la ubicación ni el origen de los datos. Tienen que navegar entre los “pantanos” de datos.
- Los consumidores de datos no saben qué usar para obtener estadísticas porque la mayoría de los datos no están bien documentados y, si están documentados, no están bien guardados.
- No es posible encontrar los datos y, con frecuencia, se pierden porque solo se conoce su ubicación de memoria.
Comprensión de los datos:
- ¿Los datos son recientes y están limpios, validados y aprobados para su uso en la producción?
- Cuando hay varios conjuntos de datos duplicados, ¿cuál de ellos es relevante y está actualizado?
- ¿Cómo se relaciona un conjunto de datos con otro?
- ¿Quién está usando los datos y quién es el propietario?
- ¿Quiénes están transformando los datos y mediante qué procesos?
Hacer que los datos sean útiles:
Los productores de datos no cuentan con una forma eficaz de presentar sus datos a los consumidores. Si no hay autoservicio, los consumidores pueden abrumar a los productores. Varios ingenieros de datos no pueden entregar datos manualmente a miles de analistas de datos.
Se pierde tiempo valioso si los consumidores de datos deben averiguar cómo solicitar acceso a los datos, esperar sin un tiempo de respuesta definido, derivar y esperar de nuevo.
Sin las herramientas adecuadas, los desafíos se convierten en un obstáculo importante para el uso eficiente de los datos. Data Catalog proporciona un repositorio centralizado que permite a las organizaciones lograr lo siguiente:
- Obtén una vista unificada para reducir la dificultad de buscar los datos correctos.
- Enriquece los datos con metadatos técnicos y empresariales para respaldar la toma de decisiones basada en datos y acelerar el tiempo de obtención de estadísticas.
- Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
- Tomar la propiedad sobre los datos para mejorar su confianza.
Funciones de Data Catalog
Data Catalog proporciona tres funciones principales:
- Buscar entradas de datos a las que tienes acceso
- Etiquetar entradas de datos con metadatos
- Proporciona seguridad a nivel de la columna para las tablas de BigQuery.
Además, Data Catalog puede aprovechar los resultados de un análisis de Protección de datos sensibles para identificar datos sensibles directamente en Data Catalog en forma de plantillas de etiquetas.
Cómo funciona Data Catalog
Data Catalog puede catalogar los metadatos de los activos de diferentes sistemas de Google Cloud.
También puedes usar las APIs de Data Catalog para integrarlas con fuentes de datos personalizadas.
Después de catalogar los datos, puedes agregar tus propios metadatos a estos recursos mediante etiquetas.
Metadatos de Data Catalog
Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para obtener más información sobre los metadatos, consulta Metadatos de Data Catalog.
Búsqueda y detección
Data Catalog ofrece una potente experiencia de búsqueda basada en predicados para metadatos técnicos y empresariales asociados con una entrada de datos. Debes tener los permisos para leer los metadatos de una entrada de datos a fin de que puedas aplicar la búsqueda y el descubrimiento en los metadatos. Data Catalog no indexa los datos dentro de una entrada de datos. Data Catalog solo indexa los metadatos que describen un activo.
Data Catalog controla algunos metadatos, como las etiquetas generadas por usuarios. Para todos los metadatos originados del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y permisos proporcionados por el sistema de almacenamiento subyacente. Puedes realizar modificaciones en el sistema de almacenamiento subyacente para agregar, actualizar o borrar los metadatos de una entrada de datos.
Para obtener más información sobre la búsqueda de Data Catalog, consulta Busca recursos de datos con Data Catalog.
Catalogación automática de recursos
Para un proyecto determinado, Data Catalog cataloga automáticamente los siguientes elementos de Google Cloud:
- Conjuntos de datos vinculados de Analytics Hub
- Conjuntos de datos, tablas, modelos, rutinas y conexiones de BigQuery
- Instancias, clústeres y tablas de Bigtable (incluidos los detalles de familia de columnas)
- Lakes, zonas, tablas y conjuntos de archivos de Dataplex
- Servicios, base de datos y tablas de Dataproc Metastore
- Temas de Pub/Sub
- Instancias, bases de datos, tablas y vistas de Spanner
Modelos de Vertex AI, conjuntos de datos y recursos de Vertex AI Feature Store
Además de catalogar activos dentro de los IDs de proyecto a los que tienes acceso de metadatos, Data Catalog puede catalogar datos almacenados en proyectos de BigQuery que contienen conjuntos de datos públicos.
Cómo catalogar recursos que no son de Google Cloud
Para catalogar metadatos de sistemas ajenos a Google Cloud en tu organización, puedes usar lo siguiente:
- Conectores que la comunidad contribuye a varias fuentes de datos locales populares
- Compila manualmente las APIs de Data Catalog para entradas personalizadas
Accede a Data Catalog
Puedes acceder a las funciones de Data Catalog con las siguientes opciones:
Dataplex en la consola de Google Cloud
Interfaz de línea de comandos (CLI) de
gcloud
¿Qué sigue?
Obtén información para etiquetar una tabla de BigQuery con Data Catalog.
Obtén información para buscar recursos de datos con Data Catalog.
Obtén información para integrar Google Cloud y fuentes de datos locales con el Catálogo de datos.