¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos Data Analytics de Google Cloud.

¿Por qué necesitas Data Catalog?

En la actualidad, la mayoría de las organizaciones se ocupan de una gran cantidad de recursos de datos que crecen.

Las partes interesadas de los datos (consumidores, productores y administradores) dentro de una organización enfrentan varios desafíos:

  • Búsqueda de datos detallados:

    • Los consumidores de datos no saben qué datos hay. Tienen que navegar por los "pantanos" de datos con los que tropezan.
    • Los consumidores de datos no saben qué usar para obtener estadísticas porque la mayoría de los datos no está bien documentados y, si están documentados, no están bien guardados.
    • No se pueden encontrar los datos y, a menudo, se pierden cuando residen solo en la mente de las personas.
  • Información sobre los datos:

    • ¿Los datos están actualizados, limpios, validados y aprobados para usarse en la producción?
    • ¿Qué datos de varios conjuntos duplicados son relevantes y están actualizados?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quién usa los datos y quién es el propietario?
    • ¿Quiénes y qué procesos están transformando los datos?
  • Hacer que los datos sean útiles:

    • Los productores de datos no tienen una manera eficiente de presentar sus datos a los consumidores. Si no existe un autoservicio, es posible que los consumidores abrumen a los productores. Varios ingenieros de datos no pueden proporcionar datos de forma manual a miles de analistas de datos.

    • El tiempo valioso se pierde si los consumidores de datos deben averiguar cómo solicitar acceso a los datos, solicitarlo, esperar sin un tiempo de respuesta definido, derivar y esperar de nuevo.

Sin las herramientas adecuadas, los desafíos anteriores juntos se convierten en un obstáculo importante para el uso eficiente de los datos. Data Catalog proporciona un lugar centralizado que permite a las organizaciones hacer lo siguiente:

  • Obtenga una vista unificada para reducir la molestia de buscar los datos correctos.
  • Enriquece los datos con metadatos técnicos y empresariales para permitir la toma de decisiones basada en datos y acelerar el tiempo de obtención de estadísticas.
  • Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
  • Tomar la propiedad sobre los datos para mejorar su confianza.

Funciones de Data Catalog

Data Catalog proporciona dos funciones principales:

  • Buscar entradas de datos a las que tienes acceso
  • Etiqueta las entradas de datos con metadatos

Además, Data Catalog puede aprovechar los resultados de un análisis de Cloud Data Loss Prevention (DLP) para identificar datos sensibles directamente en Data Catalog en forma de plantillas de etiquetas.

Cómo funciona Data Catalog

Data Catalog puede catalogar los metadatos nativos en entradas de datos de las siguientes fuentes del sistema de Google Cloud:

  • Tablas, vistas y conjuntos de datos de BigQuery
  • Temas de Pub/Sub
  • Servicios, base de datos y tablas de Dataproc Metastore

También puedes usar las API de Data Catalog a fin de crear y administrar entradas para tipos de recursos de datos personalizados.

Después de catalogar los datos, puedes agregar tus propios metadatos a estos elementos mediante etiquetas.

Metadatos de Data Catalog

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para obtener más información sobre los metadatos, consulta Metadatos de Data Catalog.

Búsqueda y detección

Data Catalog ofrece una experiencia de búsqueda simple y potente basada en predicados para metadatos técnicos y empresariales asociados con una entrada de datos. Debes tener la capacidad de leer los metadatos de una entrada de datos para poder aplicar la búsqueda y el descubrimiento en los metadatos. Data Catalog no indexa los datos dentro de una entrada de datos. Data Catalog solo indexa los metadatos que describen un activo.

Data Catalog controla algunos metadatos, como las etiquetas generadas por el usuario, pero para todos los metadatos provenientes del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y los permisos que proporciona el subyacente. sistema de almacenamiento. Se pueden realizar cambios en los metadatos nativos de una entrada de datos, como agregar, quitar o actualizar, en el sistema de almacenamiento subyacente.

Para obtener más información sobre la búsqueda en Data Catalog, consulte Cómo buscar recursos de datos con Data Catalog.

Catálogo automático de activos

Para un proyecto determinado, Data Catalog cataloga automáticamente los siguientes elementos de Google Cloud:

  • Conjuntos de datos, tablas y vistas de BigQuery
  • Temas de Pub/Sub
  • (Vista previa) Servicios, base de datos y tablas de Dataproc Metastore

Además de catalogar los elementos dentro de los ID de proyecto para los que tienes acceso a metadatos, Data Catalog puede catalogar los datos almacenados en los proyectos de BigQuery que contienen conjuntos de datos públicos.

Catálogo de elementos que no son de GCP

Para catalogar metadatos de sistemas que no sean de GCP en la organización, puedes usar lo siguiente:

Cómo acceder a Data Catalog

Puede acceder a Data Catalog mediante una de las siguientes formas:

¿Qué sigue?