¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos Data Analytics de Google Cloud.

¿Por qué necesitas un catálogo de datos?

En la actualidad, la mayoría de las organizaciones se ocupan de una gran cantidad de recursos de datos que crecen.

Las partes interesadas de los datos (consumidores, productores y administradores) dentro de una organización enfrentan varios desafíos:

  • Búsqueda de datos detallados:

    • Los consumidores de datos no saben qué datos hay. Tienen que navegar por los "pantanos" de datos con los que tropezan.
    • Los consumidores de datos no saben qué datos usar para obtener estadísticas porque la mayoría de ellos no está bien documentada y, aunque esté documentada, no está bien mantenida.
    • No se pueden encontrar los datos y, a menudo, se pierden cuando residen solo en la mente de las personas.
  • Información sobre los datos:

    • ¿Los datos están actualizados, limpios, validados y aprobados para usarse en la producción?
    • ¿Qué conjunto de datos de varios conjuntos duplicados es relevante y está actualizado?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quién usa los datos y quién es el propietario?
    • ¿Quiénes y qué procesos están transformando los datos?
  • Hacer que los datos sean útiles:

    • Los productores de datos no tienen una manera eficiente de presentar sus datos a los consumidores. Si no existe un autoservicio, es posible que los consumidores abrumen a los productores. Varios ingenieros de datos no pueden proporcionar datos de forma manual a miles de analistas de datos.

    • Se pierde un tiempo valioso si los consumidores de datos tienen que averiguar cómo solicitar acceso a los datos, hacerlo, esperar sin un tiempo de respuesta definido, derivar y esperar de nuevo.

Sin las herramientas adecuadas, los desafíos anteriores juntos se convierten en un obstáculo importante para el uso eficiente de los datos. Data Catalog proporciona un lugar centralizado que permite a las organizaciones hacer lo siguiente:

  • Obtenga una vista unificada para reducir la molestia de buscar los datos correctos.
  • Enriquece los datos con metadatos técnicos y empresariales para permitir la toma de decisiones basada en datos y acelerar el tiempo de obtención de estadísticas.
  • Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
  • Tome la propiedad de los datos para mejorar su confianza y confianza.

Use Data Catalog

Existen dos formas principales de interactuar con Data Catalog:

Además, Data Catalog puede aprovechar los resultados de un análisis de Cloud Data Loss Prevention (DLP) para identificar datos sensibles directamente en Data Catalog en forma de plantillas de etiquetas.

Cómo funciona Data Catalog

Data Catalog puede catalogar los metadatos nativos en elementos de datos de las siguientes fuentes del sistema de Google Cloud:

  • Tablas, vistas y conjuntos de datos de BigQuery
  • Temas de Pub/Sub
  • Servicios, bases de datos y tablas de Dataproc Metastore

También puedes usar las API de Data Catalog a fin de crear y administrar entradas para tipos de recursos de datos personalizados.

Después de catalogar los datos, puedes agregar tus propios metadatos a estos elementos mediante etiquetas.

Metadatos técnicos y empresariales

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para comprender la diferencia, analiza el ejemplo de Data Catalog a continuación:

  • Metadatos técnicos: Se muestran en Detalles de la tabla de BigQuery anterior, se obtienen del sistema de almacenamiento subyacente en el que reside el recurso de datos y también incluye lo siguiente:

    • Información del proyecto, como ID y nombre
    • Nombre y descripción del recurso
    • Etiquetas de recursos de Google Cloud
    • Nombre y descripción del esquema para tablas y vistas de BigQuery
  • Metadatos empresariales: Se muestran en Etiquetas (1), que son los metadatos generados por el usuario que se aplican al recurso mediante las etiquetas de Data Catalog. Los metadatos comerciales siempre están vinculados a una entrada de metadatos técnicos.

Búsqueda y detección

Data Catalog ofrece capacidades potentes y estructuradas de búsqueda y filtrado basado en predicados sobre los metadatos técnicos y comerciales de un elemento de datos. Debes tener la capacidad de leer los metadatos de un activo de datos para poder buscarlo y descubrirlo. Data Catalog no indexa los datos dentro de un activo de datos. Data Catalog indexa los metadatos que describen un activo.

Data Catalog controla algunos metadatos, como las etiquetas generadas por usuarios, pero para todos los metadatos originados del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y permisos proporcionados por el sistema de almacenamiento subyacente. Los cambios en los metadatos nativos de un recurso como agregar, quitar o actualizar, se pueden realizar en el sistema de almacenamiento subyacente.

Para un proyecto determinado, Data Catalog cataloga de forma automática los siguientes elementos de Google Cloud:

  • Conjuntos de datos, tablas y vistas de BigQuery
  • Temas de Pub/Sub
  • Servicios de Dataproc Metastore, bases de datos y tablas (vista previa)

Además de catalogar activos dentro de los ID de proyecto a los que tienes acceso de metadatos, Data Catalog puede clasificar datos almacenados en proyectos de BigQuery que contienen conjuntos de datos públicos.

Para catalogar metadatos de sistemas que no sean de GCP en la organización, puedes usar lo siguiente:

Etiquetas

Documentar los elementos de datos a gran escala es difícil, especialmente cuando los diferentes grupos de una organización consumen los datos. Cada grupo puede tener su propio conjunto de documentación para describir los elementos de datos. Las plantillas de etiquetas de Data Catalog te ayudan a crear y administrar metadatos comunes sobre elementos de datos en una sola ubicación. Las etiquetas se adjuntan al elemento de datos, lo que significa que se puede descubrir en el sistema de Data Catalog. Con esta función, también puedes crear aplicaciones adicionales que consuman estos metadatos contextuales sobre un elemento de datos y tomar medidas adicionales.

Cómo interactuar con Data Catalog

Puede acceder a Data Catalog mediante Cloud Console, la interfaz de línea de comandos gcloud (CLI) y las API de Data Catalog. o mediante llamadas a la API mediante la biblioteca cliente de Cloud.

¿Qué sigue?