Descripción general de Data Catalog

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos Data Analytics de Google Cloud.

¿Por qué necesitas un Data Catalog?

En la actualidad, la mayoría de las organizaciones enfrentan una gran cantidad de recursos de datos, cada vez con mayor frecuencia.

Las partes interesadas de datos (consumidores, productores y administradores) de una organización se enfrentan a varios desafíos:

  • Busca datos valiosos:

    • Los consumidores de datos no saben qué datos se encuentran. Tiene que navegar por los datos que los hay.
    • Los consumidores de datos no saben qué datos usar para obtener estadísticas porque la mayoría de los datos no están bien documentados y, incluso si están documentados, no se mantienen bien.
    • Los datos no se pueden encontrar y, con frecuencia, se pierden cuando residen solo en las preocupaciones de las personas.
  • Comprende los datos:

    • ¿Los datos están actualizados, limpios, validados y aprobados para su uso en producción?
    • ¿Qué conjunto de datos de varios conjuntos duplicados es relevante y está actualizado?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quiénes usan los datos y quién es el propietario?
    • ¿Quiénes y qué procesos transforman los datos?
  • Hacer que los datos sean útiles:

    • Los productores de datos no tienen una manera eficiente de presentar sus datos a los consumidores. Si no hay una autoservicio, los consumidores pueden sobrecargar a los productores. Varios ingenieros de datos no pueden proporcionar datos de manera manual a miles de analistas de datos.

    • Se pierde tiempo valioso si los consumidores de datos tienen que averiguar cómo solicitar acceso a los datos, solicitarlos, esperar sin un tiempo de respuesta definido, escalar y esperar.

Sin las herramientas adecuadas, los desafíos anteriores se convierten en un principal obstáculo para el uso eficiente de los datos. Data Catalog proporciona un lugar centralizado que permite a las organizaciones hacer lo siguiente:

  • Obtenga una vista unificada para reducir el problema de buscar los datos correctos.
  • Enriquece los datos con los metadatos técnicos y empresariales para permitir la toma de decisiones basada en datos y acelerar el tiempo para obtener estadísticas.
  • Mejora la administración de datos para aumentar la eficiencia operativa y la productividad.
  • Haga propietarios de los datos para mejorar su confianza y confianza.

Use Data Catalog

Existen dos formas principales de interactuar con Data Catalog:

Además, Data Catalog interactúa con Prevención de pérdida de datos en Cloud (DLP) para identificar automáticamente datos sensibles mediante el poderoso mecanismo de etiquetado automático de Prevención de pérdida de datos en Cloud.

Cómo funciona Data Catalog

Data Catalog puede catalogar los metadatos nativos en elementos de datos de las siguientes fuentes del sistema de almacenamiento de Google Cloud:

  • Tablas, vistas y conjuntos de datos de BigQuery
  • Temas de Pub/Sub
  • Servicios, bases de datos y tablas de Dataproc Metastore

También puedes usar las API de Data Catalog a fin de crear y administrar entradas para tipos de recursos de datos personalizados.

Después de catalogar los datos, puedes agregar tus propios metadatos a estos elementos mediante etiquetas.

Metadatos técnicos y empresariales

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para comprender la diferencia, analiza el ejemplo de Data Catalog a continuación:

  • Metadatos técnicos: Se muestran en Detalles de la tabla de BigQuery anterior, se obtienen del sistema de almacenamiento subyacente en el que reside el recurso de datos y también incluye lo siguiente:

    • Información del proyecto, como ID y nombre
    • Nombre y descripción del recurso
    • Etiquetas de recursos de Google Cloud
    • Nombre y descripción del esquema para tablas y vistas de BigQuery
  • Metadatos empresariales: Se muestran en Etiquetas (1), que son los metadatos generados por el usuario que se aplican al recurso mediante las etiquetas de Data Catalog. Los metadatos comerciales siempre están vinculados a una entrada de metadatos técnicos.

Búsqueda y detección

Data Catalog ofrece capacidades potentes y estructuradas de búsqueda y filtrado basado en predicados sobre los metadatos técnicos y comerciales de un elemento de datos. Debes tener la capacidad de leer los metadatos de un activo de datos para poder buscarlo y descubrirlo. Data Catalog no indexa los datos dentro de un activo de datos. Data Catalog indexa los metadatos que describen un activo.

Data Catalog controla algunos metadatos, como las etiquetas generadas por usuarios, pero para todos los metadatos originados del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y permisos proporcionados por el sistema de almacenamiento subyacente. Los cambios en los metadatos nativos de un recurso como agregar, quitar o actualizar, se pueden realizar en el sistema de almacenamiento subyacente.

Para un proyecto determinado, Data Catalog cataloga de manera automática los siguientes elementos:

  • Tablas, conjuntos de datos, vistas y tablas externas de BigQuery en Cloud Storage, Cloud Bigtable o Hojas de cálculo de Google
  • Temas de Pub/Sub
  • Servicios, bases de datos y tablas de Dataproc Metastore

Además de catalogar activos dentro de los ID de proyecto a los que tienes acceso de metadatos, Data Catalog puede clasificar datos almacenados en proyectos de BigQuery que contienen conjuntos de datos públicos.

Etiquetas

Documentar los elementos de datos a gran escala es difícil, especialmente cuando los diferentes grupos de una organización consumen los datos. Cada grupo puede tener su propio conjunto de documentación para describir los elementos de datos. Las plantillas de etiquetas de Data Catalog te ayudan a crear y administrar metadatos comunes sobre elementos de datos en una sola ubicación. Las etiquetas se adjuntan al elemento de datos, lo que significa que se puede descubrir en el sistema de Data Catalog. Con esta función, también puedes crear aplicaciones adicionales que consuman estos metadatos contextuales sobre un elemento de datos y tomar medidas adicionales.

Cómo interactuar con Data Catalog

Puede acceder a Data Catalog mediante Cloud Console, la interfaz de línea de comandos gcloud (CLI) y las API de Data Catalog. o mediante llamadas a la API mediante la biblioteca cliente de Cloud.

¿Qué sigue?