¿Qué es Data Catalog?

Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.

¿Por qué necesitas Data Catalog?

En la actualidad, la mayoría de las organizaciones trabajan con una gran y creciente cantidad de recursos de datos.

Las partes interesadas de datos (consumidores, productores y administradores) de una organización enfrentan varios desafíos:

  • Búsqueda de datos reveladores:

    • Los consumidores de datos no conocen la ubicación ni el origen de los datos. Tienen que navegar por los datos.
    • Los consumidores de datos no saben qué usar para obtener estadísticas porque la mayoría de los datos no está bien documentados y, si están documentados, no están bien guardados.
    • Los datos no se pueden encontrar y, a menudo, se pierden cuando solo están en la mente de las personas.
  • Información sobre los datos:

    • ¿Los datos son recientes y están limpios, validados y aprobados para su uso en la producción?
    • ¿Qué conjunto de datos de varios conjuntos de datos duplicados es relevante y está actualizado?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quién está usando los datos y quién es el propietario?
    • ¿Quiénes están transformando los datos y mediante qué procesos?
  • Hacer que los datos sean útiles:

    • Los productores de datos no tienen una manera eficiente de mostrar sus datos a los consumidores. Si no hay autoservicio, los consumidores pueden abrumar a los productores. Varios ingenieros no pueden proporcionar datos a miles de analistas de forma manual.

    • El tiempo valioso se pierde si los consumidores de datos deben averiguar cómo solicitar acceso a los datos, solicitarlo, esperar sin un tiempo de respuesta definido, derivar y esperar de nuevo.

Sin las herramientas adecuadas, los desafíos se convierten en un gran obstáculo para el uso eficiente de los datos. Data Catalog proporciona un lugar centralizado que permite a las organizaciones lograr lo siguiente:

  • Obtenga una vista unificada para reducir la dificultad de buscar los datos correctos.
  • Apoya la toma de decisiones basada en datos y acelera el tiempo de obtención de estadísticas enriqueciendo los datos con metadatos técnicos y empresariales.
  • Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
  • Tomar la propiedad sobre los datos para mejorar su confianza.

Funciones de Data Catalog

Data Catalog proporciona tres funciones principales:

  • Buscar entradas de datos a las que tengas acceso
  • Etiqueta entradas de datos con metadatos
  • Proporciona seguridad a nivel de columnas para las tablas de BigQuery

Además, Data Catalog puede aprovechar los resultados de un análisis de Cloud Data Loss Prevention (DLP) para identificar datos sensibles directamente en Data Catalog en forma de plantillas de etiquetas.

Cómo funciona Data Catalog

Data Catalog puede catalogar metadatos de recursos de diferentes sistemas de Google Cloud.

También puedes usar las API de Data Catalog para integrar las fuentes de datos personalizadas.

Después de catalogar tus datos, puedes agregar tus propios metadatos a estos activos mediante etiquetas.

Data Catalog cataloga entradas de datos de Pub/Sub, BigQuery, Dataplex, Dataproc Metastore y Cloud Storage.

Figura 1. Arquitectura de Data Catalog

Metadatos de Data Catalog

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para obtener más información sobre los metadatos, consulta Metadatos de Data Catalog.

Búsqueda y detección

Data Catalog ofrece una experiencia de búsqueda basada en predicados, simple pero potente, para metadatos técnicos y empresariales asociados con una entrada de datos. Debes tener los permisos para leer los metadatos de una entrada de datos a fin de poder aplicar la búsqueda y el descubrimiento en los metadatos. Data Catalog no indexa los datos dentro de una entrada de datos. Data Catalog indexa solo los metadatos que describen un elemento.

Data Catalog controla algunos metadatos, como las etiquetas generadas por los usuarios. Para todos los metadatos que provienen del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y los permisos que proporciona el sistema de almacenamiento subyacente. Puedes realizar ediciones en el sistema de almacenamiento subyacente para agregar, actualizar o borrar los metadatos de una entrada de datos.

Para obtener más información sobre la búsqueda en Data Catalog, consulte Cómo buscar recursos de datos con Data Catalog.

Catálogo automático de elementos

Para un proyecto determinado, Data Catalog cataloga automáticamente los siguientes elementos de Google Cloud:

  • Conjuntos de datos, tablas y vistas de BigQuery.
  • Temas de Pub/Sub.
  • Dataplex lakes, zonas, tablas y conjuntos de archivos
  • Conjuntos de datos vinculados de Analytics Hub
  • (Vista previa pública): Los servicios, las bases de datos y las tablas de Dataproc Metastore.

Además de catalogar elementos dentro de los ID de proyecto para los cuales tienes acceso a metadatos, Data Catalog puede catalogar datos almacenados en los proyectos de BigQuery que contienen conjuntos de datos públicos.

Catálogo de elementos que no pertenecen a GCP

Para catalogar metadatos de sistemas ajenos a GCP en tu organización, puedes usar lo siguiente:

Accede a Data Catalog

Puedes acceder a las funciones de Data Catalog mediante estos métodos:

¿Qué sigue?