Descripción general de Data Catalog

El atributo de Data Catalog de Dataplex es un inventario central de los recursos de datos de una organización. Data Catalog automáticamente cataloga metadatos de fuentes de Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable y más. Data Catalog también indexa metadatos de tablas y conjuntos de archivos desde Cloud Storage a través del descubrimiento.

Puedes descubrir datos con Dataplex en toda la organización búsqueda de metadatos. Puedes enriquecer aún más los metadatos con recursos el contexto empresarial y habilitar el seguimiento del linaje, la creación de perfiles de datos y la calidad de los datos de seguridad, verificaciones de datos y capacidades de control de acceso.

Con Data Catalog, las organizaciones pueden obtener mejores datos descubrimiento, metadatos y control.

¿Por qué necesitas Data Catalog?

En la actualidad, la mayoría de las organizaciones deben lidiar con una cantidad cada vez mayor de datos activos de datos de una empresa.

Las partes interesadas en los datos (consumidores, productores y administradores) la organización se enfrenta a varios desafíos:

  • Búsqueda de datos detallados:

    • Los consumidores de datos no conocen la ubicación ni el origen de los datos. Tienen que navegar por los datos “pantanos”.
    • Los consumidores de datos no saben qué usar para obtener estadísticas porque la mayoría de los datos no está bien documentados y, si están documentados, no están bien guardados.
    • Los datos no se pueden encontrar y, a menudo, se pierden cuando se encuentran solo en mentes.
  • Comprensión de datos:

    • ¿Los datos son recientes y están limpios, validados y aprobados para su uso en la producción?
    • De varios conjuntos duplicados, ¿qué conjunto de datos es relevante y está actualizado?
    • ¿Cómo se relaciona un conjunto de datos con otro?
    • ¿Quién está usando los datos y quién es el propietario?
    • ¿Quiénes están transformando los datos y mediante qué procesos?
  • Haz que los datos sean útiles:

    • Los productores de datos no tienen una forma eficiente de presentar sus datos para a los consumidores. Si no hay autoservicio, los consumidores pueden abrumar a los productores. Varios ingenieros de datos no pueden proporcionar datos a miles de datos de forma manual para los analistas de datos en la nube.

    • Se pierde tiempo valioso si los consumidores de datos tienen que averiguar cómo solicitar el acceso a los datos, esperar sin un tiempo de respuesta definido, derivar el caso y esperar de nuevo.

Sin las herramientas adecuadas, los desafíos se convierten en un gran obstáculo. al uso eficiente de los datos. Data Catalog proporciona un entorno que permite a las organizaciones hacer lo siguiente:

  • Obtén una vista unificada para reducir la molestia de buscar los datos correctos.
  • Respalda la toma de decisiones basada en datos y acelera el tiempo de las estadísticas mediante el enriquecimiento de los datos con metadatos técnicos y empresariales.
  • Mejorar la administración de datos para aumentar la eficiencia operativa y productividad.
  • Tomar la propiedad sobre los datos para mejorar su confianza.

Funciones de Data Catalog

Data Catalog proporciona tres funciones principales:

  • Buscar entradas de datos a las que tienes acceso
  • Etiqueta entradas de datos con metadatos
  • Proporcionar seguridad a nivel de la columna para tablas de BigQuery

Además, Data Catalog puede basarse en los resultados de un Análisis de Sensitive Data Protection para identificar datos sensibles datos directamente en Data Catalog en forma de plantillas de etiquetas.

Cómo funciona Data Catalog

Data Catalog puede catalogar metadatos de activos de diferentes sistemas de Google Cloud.

También puedes usar las APIs de Data Catalog para integrarlas en fuentes de datos personalizadas.

Después de catalogar tus datos, puedes agregar tus propios metadatos a estos recursos mediante etiquetas.

Data Catalog descubre metadatos de los datos de Google Cloud
  fuentes como BigQuery, Pub/Sub,
  Dataproc Metastore y Cloud Storage, así como
  fuentes de datos que no están en la nube,
como Hive y Oracle.
Figure 1. Data Catalog lee metadatos de servicios de Google Cloud y fuentes de datos personalizadas.

Metadatos de Data Catalog

Data Catalog maneja dos tipos de metadatos: metadatos técnicos y metadatos comerciales. Para obtener más información sobre los metadatos, consulta Metadatos de Data Catalog.

Búsqueda y detección

Data Catalog ofrece una potente búsqueda basada en predicados para metadatos técnicos y empresariales asociados a la entrada de datos. Tú debes tener los permisos para leer los metadatos de una entrada de datos de modo que puedas Aplica la búsqueda y el descubrimiento en los metadatos. Data Catalog no indexar los datos en una entrada de datos. Data Catalog solo indexa las metadatos que describen un activo.

Data Catalog controla algunos metadatos, como las etiquetas generadas por usuarios. Para todos los metadatos que se obtienen del sistema de almacenamiento subyacente, Data Catalog es un servicio de solo lectura que refleja los metadatos y permisos que proporciona el sistema de almacenamiento subyacente. Puedes realizar cambios en el sistema de almacenamiento subyacente para agregar, actualizar o eliminar los metadatos de un entrada.

Para obtener más información sobre la búsqueda de Data Catalog, consulta Busca recursos de datos con Data Catalog.

Catalogación automática de elementos

Para un proyecto determinado, Data Catalog cataloga automáticamente los siguientes elementos de Google Cloud:

  • Conjuntos de datos vinculados de Analytics Hub
  • Conjuntos de datos, tablas, modelos, rutinas y conexiones de BigQuery
  • Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
  • Lakes, zonas, tablas y conjuntos de archivos de Dataplex
  • Servicios, base de datos y tablas de Dataproc Metastore
  • Temas de Pub/Sub
  • Instancias, bases de datos, tablas y vistas de Spanner
  • Modelos de Vertex AI, conjuntos de datos Recursos de Vertex AI Feature Store

Además de catalogar recursos dentro de los IDs de proyectos para los que tienes acceso a metadatos, Data Catalog puede catalogar datos almacenados en los proyectos de BigQuery que contienen conjuntos de datos públicos.

Cataloga elementos que no sean de Google Cloud.

Para catalogar metadatos de sistemas que no son de Google Cloud en tu organización, puedes usar la lo siguiente:

Accede a Data Catalog

Puedes acceder a las funciones de Data Catalog mediante lo siguiente:

¿Qué sigue?