Descripción general de Data Catalog

Administrar los recursos de datos puede llevar mucho tiempo y ser costoso sin las herramientas adecuadas. Data Catalog proporciona un lugar centralizado donde las organizaciones pueden encontrar, seleccionar y describir sus recursos de datos.

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos Data Analytics de Google Cloud.

Usar Data Catalog

Existen dos formas principales de interactuar con Data Catalog:

Además, Data Catalog interactúa con Prevención de pérdida de datos en Cloud (DLP) para identificar automáticamente datos sensibles mediante el poderoso mecanismo de etiquetado automático de Prevención de pérdida de datos en Cloud.

Cómo funciona Data Catalog

Data Catalog puede catalogar los metadatos nativos en elementos de datos de las siguientes fuentes del sistema de almacenamiento de Google Cloud:

  • Tablas, vistas y conjuntos de datos de BigQuery
  • Temas de Pub/Sub

También puedes usar las API de Data Catalog a fin de crear y administrar entradas para tipos de recursos de datos personalizados.

Después de catalogar los datos, puedes agregar tus propios metadatos a estos elementos mediante etiquetas.

Metadatos técnicos y empresariales

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para comprender la diferencia, analiza el ejemplo de Data Catalog a continuación:

  • Metadatos técnicos: Se muestran en Detalles de la tabla de BigQuery anterior, se obtienen del sistema de almacenamiento subyacente en el que reside el recurso de datos y también incluye lo siguiente:
    • Información del proyecto, como ID y nombre
    • Nombre y descripción del recurso
    • Etiquetas de recursos de Google Cloud
    • Nombre y descripción del esquema para tablas y vistas de BigQuery
  • Metadatos empresariales: Se muestran en Etiquetas (1), que son los metadatos generados por el usuario que se aplican al recurso mediante las etiquetas de Data Catalog. Los metadatos comerciales siempre están vinculados a una entrada de metadatos técnicos.

Búsqueda y detección

Data Catalog ofrece capacidades potentes y estructuradas de búsqueda y filtrado basado en predicados sobre los metadatos técnicos y comerciales de un elemento de datos. Debes tener la capacidad de leer los metadatos de un activo de datos para poder buscarlo y descubrirlo. Data Catalog no indexa los datos dentro de un activo de datos. Data Catalog indexa los metadatos que describen un activo.

Data Catalog controla algunos metadatos, como las etiquetas generadas por usuarios, pero para todos los metadatos originados del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y permisos proporcionados por el sistema de almacenamiento subyacente. Los cambios en los metadatos nativos de un recurso como agregar, quitar o actualizar, se pueden realizar en el sistema de almacenamiento subyacente.

Para un proyecto determinado, Data Catalog cataloga automáticamente todos los conjuntos de datos de BigQuery, las tablas, las vistas y las tablas externas en Cloud Storage, Cloud Bigtable o las Hojas de cálculo de Google. Data Catalog también cataloga automáticamente los temas de Pub/Sub desde ese proyecto.

Además de catalogar activos dentro de los ID de proyecto a los que tienes acceso de metadatos, Data Catalog puede clasificar datos almacenados en proyectos de BigQuery que contienen conjuntos de datos públicos.

Etiquetas

Documentar los elementos de datos a gran escala es difícil, especialmente cuando los diferentes grupos de una organización consumen los datos. Cada grupo puede tener su propio conjunto de documentación para describir los elementos de datos. Las plantillas de etiquetas de Data Catalog te ayudan a crear y administrar metadatos comunes sobre elementos de datos en una sola ubicación. Las etiquetas se adjuntan al elemento de datos, lo que significa que se puede descubrir en el sistema de Data Catalog. Con esta función, también puedes crear aplicaciones adicionales que consuman estos metadatos contextuales sobre un elemento de datos y tomar medidas adicionales.

Cómo interactuar con Data Catalog

Puede acceder a Data Catalog mediante Cloud Console, la interfaz de línea de comandos gcloud (CLI) y las API de Data Catalog. o mediante llamadas a la API mediante la biblioteca cliente de Cloud.

Qué sigue