Etiquetas y plantillas de etiquetas

Documentar las entradas de datos a gran escala es difícil, especialmente cuando las usan diferentes grupos en una organización con diferentes necesidades. A menudo, cada grupo crea su propio conjunto de documentación y metadatos para describir los mismos datos, lo que da como resultado la duplicación de esfuerzos y la información incompleta. Data Catalog resuelve este problema con las etiquetas, que permiten a las organizaciones crear, buscar y administrar metadatos de todas las entradas de datos en un servicio unificado.

En este documento, se explican dos conceptos clave de Data Catalog:

  • Etiquetas. Campos de metadatos personalizados que puedes adjuntar a una entrada de datos proporcionar contexto.

  • Plantillas de etiquetas. Son estructuras reutilizables que puedes usar para crear etiquetas nuevas con rapidez.

Etiquetas

Las etiquetas son un tipo de metadatos empresariales. Agregar etiquetas a una entrada de datos ayuda a proporcionar contexto significativo a cualquiera que lo necesite para usar el recurso. Por ejemplo, una etiqueta puede indicarle información como quién es responsable de una una entrada de datos particular, ya sea que contenga información de identificación personal (PII), la política de retención de datos del recurso y el nivel de calidad de los datos.

Pueden ser etiquetas públicas o privadas. Cada tipo de etiqueta tiene algunas características para adaptarlos a los requisitos de tu empresa.

Etiquetas privadas

Las etiquetas privadas proporcionan controles de acceso estrictos. Puedes buscar o ver las etiquetas y las entradas de datos asociadas a ellas solo si estás Se otorgaron los permisos de lectura necesarios en la plantilla de etiqueta privada y en los datos de entradas de registro.

La búsqueda de etiquetas privadas en la página de Data Catalog requiere lo siguiente: Utilizas la sintaxis de búsqueda de tag: o los filtros de búsqueda.

Las etiquetas privadas son adecuadas para situaciones en las que necesitas almacenar información sensible en la etiqueta y deseas aplicar restricciones de acceso adicionales más allá de verificar si el usuario tiene permisos para ver la entrada etiquetada.

Etiquetas públicas

Las etiquetas públicas proporcionan un control de acceso menos estricto para buscar y ver la etiqueta en comparación con las etiquetas privadas. Cualquier usuario que tenga los permisos de lectura necesarios para una entrada de datos puede ver todas las etiquetas públicas asociadas a ella. Ver permisos de etiquetas públicas solo se requieren cuando realizas una búsqueda en Data Catalog con la sintaxis tag: o cuando veas una plantilla de etiqueta no adjunta.

Las etiquetas públicas admiten la búsqueda simple y la búsqueda con predicados en la página de búsqueda de Data Catalog. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud.

Por ejemplo, supongamos que tienes una plantilla de etiqueta pública llamada employee data que usaste para crear etiquetas para tres entradas de datos llamadas Name, Location y Salary. De las tres entradas de datos, solo los miembros de un grupo específico llamado HR pueden ver la entrada de datos Salary. Las otras dos entradas de datos tienen permisos de lectura para todos los empleados de la empresa.

Si algún empleado que no es miembro del grupo HR usa Data Catalog en la página de búsqueda y las búsquedas con la palabra employee, el resultado de la búsqueda Solo las entradas de datos Name y Location con las etiquetas públicas asociadas.

Las etiquetas públicas son útiles para un amplio conjunto de situaciones y son intuitivas usar. Las etiquetas públicas admiten búsquedas y búsquedas sencillas con predicados, mientras que las etiquetas privadas solo admiten la búsqueda con predicados.

Etiquetas de muestra adjuntas a una entrada de datos

En el siguiente diagrama, se muestra una tabla de clientes de ejemplo cust_tbl, con varias etiquetas de metadatos empresariales adjuntas a la tabla y sus columnas.

La muestra usa etiquetas de tabla para describir la administración, calidad y
  y etiquetas de columnas para marcar la PII, como los NSS y la información de contacto.
Figure 1. Data Catalog admite el etiquetado a nivel de tabla y columna.

Plantillas de etiquetas

Para comenzar a etiquetar datos, primero debes crear una o más plantillas de etiquetas. Una plantilla de etiqueta puede ser pública o privada. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud. Una plantilla de etiqueta es un grupo de pares clave-valor de metadatos llamados campos. Tener un conjunto de plantillas es similar a tener un esquema de base de datos para los metadatos.

Puedes estructurar las etiquetas por tema. Por ejemplo:

  • Una etiqueta de administración de datos con campos para: administración de datos, fecha de retención, fecha de eliminación, PII (sí o no), clasificación de datos (público, confidencial, sensible, reglamentario)
  • Una etiqueta de calidad de los datos con campos para los problemas de calidad, la frecuencia de actualización y la información de SLO.
  • Una etiqueta de uso de datos con campos para los usuarios principales, las principales búsquedas y los usuarios diarios promedio

Luego, puedes mezclar y combinar etiquetas a través de las etiquetas relevantes para cada recurso de datos y tus necesidades comerciales.

Campos de una etiqueta

Las etiquetas contienen uno o más campos en los que se puede almacenar información. Los campos de una etiqueta se definen con una plantilla de etiqueta, y cada campo se puede usar para almacenar uno o más valores. Cada etiqueta es una instancia de una plantilla de etiqueta, que se puede se aplican a una entrada de datos completa o a tablas o columnas particulares. Una etiqueta en una columna podría indicar, por ejemplo, si esa columna contiene PII, si quedó obsoleta o qué fórmula se usó para calcular un valor determinado.

Cada campo contiene un ID, un nombre visible y un tipo. El tipo puede ser string, double, boolean, enum (enumeración) o datetime. Cuando el tipo es enum, la plantilla también almacena los valores permitidos para el campo.

Los campos se almacenan en la plantilla como un conjunto ordenado, en el que el orden representa la importancia relativa de un campo en relación con los otros campos.

Los campos son opcionales, a menos que estén marcados como obligatorios. Un campo obligatorio debe recibir un valor cuando se usa la plantilla, mientras que un campo opcional puede dejarse en blanco.

No puedes cambiar un campo opcional a obligatorio después de crear tu plantilla.

Campos de muestra en una etiqueta

Esta es una plantilla de etiqueta de ejemplo de la guía de inicio rápido. Contiene varios tipos de campos:

La plantilla de etiqueta de ejemplo define campos para la fuente de datos, la cantidad de
  filas, la presencia de PII y el tipo de PII.
Figure 2. Una plantilla de etiqueta de Data Catalog

Esta es una etiqueta creada a partir de la plantilla, con valores proporcionados para cada campo:

La etiqueta de ejemplo indica que sus datos provienen de una tabla con nombre, tiene cientos
  millones de filas y no tiene PII.
Figura 3: Una etiqueta creada a partir de una plantilla de etiqueta.

Para ayudarte a comenzar, Data Catalog incluye una galería de plantillas de etiquetas de muestra para ilustrar los casos de uso comunes del etiquetado. Recurre a estos ejemplos para descubrir lo que puedes hacer con el etiquetado, obtener inspiración o utilizarlos como punto de partida para crear tu propia infraestructura de etiquetado.

Para usar una plantilla de etiqueta, realiza los siguientes pasos:

  1. En la consola de Google Cloud, ve a la página Plantillas de etiquetas de Dataplex.

    Ir a Plantillas de etiquetas

  2. Haz clic en Crear plantilla de etiqueta.

    La galería de plantillas se muestra como parte de la página Crear plantilla.

Después de seleccionar una plantilla de la galería, puedes usarla como cualquier otro en otra plantilla de etiqueta. Puedes agregar y borrar atributos, y cambiar todo lo que la plantilla para que se adapte a las necesidades de tu empresa. Luego, puedes buscar los campos y valores de plantilla con Data Catalog.

Control de acceso para etiquetas

Las etiquetas y sus metadatos pueden contener información sensible y es posible que los equipos de administración de datos deseen que ciertas etiquetas sean visibles solo para grupos específicos de usuarios. Data Catalog proporciona control de acceso a las plantillas de etiquetas, y estas se extiende a todas las etiquetas creadas con esa plantilla.

Puedes establecer plantillas de etiquetas con muchas configuraciones de control de acceso, por ejemplo:

  • Una plantilla de etiqueta que solo el creador de la plantilla puede usar para crear etiquetas
  • Una plantilla de etiqueta que crea etiquetas que solo son visibles para un conjunto selecto de usuarios
  • Una plantilla de etiqueta que un conjunto selecto de usuarios puede usar para crear etiquetas que se Solo visible para otro conjunto de usuarios (posiblemente idéntico)
  • Una plantilla de etiqueta visible para todos los usuarios de una organización o un proyecto (etiqueta pública)

El acceso a una plantilla de etiqueta se otorga o se rechaza con las funciones de IAM. Estas proporcionan permisos para crear, editar y usar la plantilla de la etiqueta. Estos son algunos ejemplos roles disponibles de Data Catalog:

  • Para permitir que un usuario cree o actualice una plantilla de etiqueta, debes otorgarle el rol de creador de plantillas de etiquetas.

  • Para permitir que un usuario aplique etiquetas a una entrada de datos, debes otorgarle el rol de usuario de la plantilla de etiquetas.

Consulta Administración de identidades y accesos de Data Catalog para obtener más información.

Recursos regionales

Cada etiqueta y plantilla de etiqueta se almacena en una región de Google Cloud en particular. Puedes usar una plantilla de etiqueta para crear un rótulo identificador en cualquier región, de modo que no tengas que crear copias de tu plantilla si tienes entradas de datos distribuidas en varios regiones.

Qué sigue