¿Qué es Data Catalog?

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos Data Analytics de Google Cloud.

¿Por qué necesitan Data Catalog?

En la actualidad, la mayoría de las organizaciones se ocupan de una gran y creciente cantidad de recursos de datos.

Las partes interesadas de datos (consumidores, productores y administradores) de una organización se enfrentan a varios desafíos:

  • Búsqueda de datos detallados:

    • Los consumidores de datos no conocen la ubicación ni el origen de los datos. Tiene que navegar por los datos.
    • Los consumidores de datos no saben qué usar para obtener estadísticas porque la mayoría de los datos no está bien documentados y, si están documentados, no están bien guardados.
    • No se pueden encontrar los datos y, a menudo, se pierden cuando solo están presentes en la mente de las personas.
  • Información sobre los datos:

    • ¿Los datos son recientes y están limpios, validados y aprobados para su uso en la producción?
    • ¿Cuál de los siguientes conjuntos de datos duplicados es relevante y está actualizado?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quién está usando los datos y quién es el propietario?
    • ¿Quiénes están transformando los datos y mediante qué procesos?
  • Datos útiles:

    • Los productores de datos no tienen una forma eficiente de presentar sus datos para los consumidores. Si no hay autoservicio, los consumidores pueden abrumar a los productores. Varios ingenieros de datos no pueden proporcionar datos a miles de analistas de forma manual.

    • El tiempo valioso se pierde si los consumidores de datos deben averiguar cómo solicitar acceso a los datos, solicitarlo, esperar sin un tiempo de respuesta definido, derivar y esperar de nuevo.

Sin las herramientas correctas, los desafíos se convierten en un gran obstáculo para el uso eficiente de los datos. Data Catalog proporciona un lugar centralizado que permite a las organizaciones lograr lo siguiente:

  • Obtenga una vista unificada para reducir la dificultad de buscar los datos correctos.
  • Apoya la toma de decisiones basada en datos y acelera el tiempo de obtención de estadísticas mediante el enriquecimiento de los datos con metadatos técnicos y empresariales.
  • Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
  • Tomar la propiedad sobre los datos para mejorar su confianza.

Funciones de Data Catalog

Data Catalog proporciona dos funciones principales:

  • Buscar entradas de datos a las que tienes acceso
  • Etiqueta entradas de datos con metadatos

Además, Data Catalog puede aprovechar los resultados de un análisis de Cloud Data Loss Prevention (DLP) para identificar los datos sensibles directamente en Data Catalog en forma de plantillas de etiquetas.

Cómo funciona Data Catalog

Data Catalog puede catalogar los metadatos en entradas de datos de diferentes fuentes del sistema de Google Cloud.

También puedes usar las API de Data Catalog a fin de crear y administrar entradas para tipos de recursos de datos personalizados.

Después de catalogar tus datos, puedes agregar tus propios metadatos a esos activos mediante etiquetas.

Data Catalog cataloga entradas de datos de Pub/Sub, BigQuery, Dataplex, Dataproc Metastore y Cloud Storage.

Figura 1. Arquitectura de Data Catalog

Metadatos de Data Catalog

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para obtener más información sobre los metadatos, consulta Metadatos de Data Catalog.

Búsqueda y detección

Data Catalog ofrece una experiencia de búsqueda simple y potente basada en predicados para metadatos técnicos y empresariales asociados con una entrada de datos. Debes tener los permisos para leer los metadatos de una entrada de datos a fin de poder aplicar la búsqueda y el descubrimiento en los metadatos. Data Catalog no indexa los datos dentro de una entrada de datos. Data Catalog solo indexa los metadatos que describen un elemento.

Data Catalog controla algunos metadatos, como las etiquetas generadas por los usuarios. Para todos los metadatos procedentes del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y los permisos que proporciona el sistema de almacenamiento subyacente. Puedes realizar modificaciones en el sistema de almacenamiento subyacente para agregar, actualizar o borrar los metadatos de una entrada de datos.

Para obtener más información sobre la búsqueda en Data Catalog, consulte Búsqueda de recursos de datos con Data Catalog.

Catálogo automático de activos

Para un proyecto determinado, Data Catalog cataloga automáticamente los siguientes elementos de Google Cloud:

  • Conjuntos de datos, tablas y vistas de BigQuery.
  • Temas de Pub/Sub
  • Lakes, zonas, tablas y conjuntos de archivos de Dataplex.
  • (Vista previa pública): Servicios, bases de datos y tablas de Dataproc Metastore.
  • (Vista previa pública): Conjuntos de datos vinculados de Analytics Hub.

Además de catalogar los elementos dentro de los ID de los proyectos para los que tienes acceso a los metadatos, Data Catalog puede catalogar datos almacenados en proyectos de BigQuery que contengan conjuntos de datos públicos.

Catálogo de elementos que no son de GCP

Para catalogar metadatos de sistemas que no pertenecen a GCP en tu organización, puedes usar lo siguiente:

Acceder a Data Catalog

Puede acceder a Data Catalog mediante una de las siguientes formas:

¿Qué sigue?