Etiquetas y plantillas de etiquetas

Documentar las entradas de datos a gran escala es difícil, en especial cuando las usan diferentes grupos en una organización con diferentes necesidades. A menudo, cada grupo crea su propio conjunto de documentación y metadatos para describir los mismos datos, lo que genera información incompleta y esfuerzo duplicado. Data Catalog resuelve este problema con las etiquetas, que permiten a las organizaciones crear, buscar y administrar metadatos para todas sus entradas de datos en un servicio unificado.

En este documento, se explican dos conceptos clave de Data Catalog:

  • Etiquetas. Campos de metadatos personalizados que puedes adjuntar a una entrada de datos para proporcionar contexto.

  • Plantillas de etiquetas. Estructuras reutilizables que puedes usar para crear etiquetas nuevas con rapidez

Etiquetas

Las etiquetas son un tipo de metadatos empresariales. Agregar etiquetas a una entrada de datos ayuda a proporcionar un contexto significativo a cualquier persona que necesite usar el recurso. Por ejemplo, una etiqueta puede decirte información como quién es responsable de una entrada de datos en particular, si contiene información de identificación personal (PII), la política de retención de datos del recurso y un nivel de calidad de los datos.

Las etiquetas pueden ser públicas o privadas. Cada tipo de etiqueta tiene sus ventajas según los requisitos de la empresa.

Etiquetas privadas

Las etiquetas privadas proporcionan controles de acceso estrictos. Puedes buscar o ver las etiquetas y las entradas de datos asociadas con las etiquetas solo si se te otorgan los permisos de lectura necesarios en la plantilla de etiqueta privada y las entradas de datos.

La búsqueda de etiquetas privadas en la página de Data Catalog requiere que uses la sintaxis de búsqueda tag: o los filtros de búsqueda.

Las etiquetas privadas son adecuadas para situaciones en las que necesitas almacenar información sensible en la etiqueta y deseas aplicar restricciones de acceso adicionales más allá de verificar si el usuario tiene permisos para ver la entrada etiquetada.

Etiquetas públicas

Las etiquetas públicas proporcionan un control de acceso menos estricto para buscar y ver la etiqueta en comparación con las etiquetas privadas. Cualquier usuario que tenga los permisos de lectura necesarios para una entrada de datos puede ver todas las etiquetas públicas asociadas a ella. Los permisos de lectura para las etiquetas públicas solo son obligatorios cuando realizas una búsqueda en Data Catalog con la sintaxis tag: o cuando ves una plantilla de etiqueta no adjunta.

Las etiquetas públicas admiten la búsqueda simple y la búsqueda con predicados en la página de búsqueda de Data Catalog. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud.

Por ejemplo, supongamos que tienes una plantilla de etiqueta pública llamada employee data que usaste para crear etiquetas para tres entradas de datos llamadas Name, Location y Salary. De las tres entradas de datos, solo los miembros de un grupo específico llamado HR pueden ver la entrada de datos Salary. Las otras dos entradas de datos tienen permisos de lectura para todos los empleados de la empresa.

Si un empleado que no es miembro del grupo HR usa la página de búsqueda de Data Catalog y busca la palabra employee, el resultado de la búsqueda solo muestra entradas de datos Name y Location con las etiquetas públicas asociadas.

Las etiquetas públicas son útiles para un amplio conjunto de situaciones, y estas etiquetas son intuitivas de uso. Las etiquetas públicas admiten la búsqueda simple y la búsqueda con predicados, mientras que las etiquetas privadas solo admiten la búsqueda con predicados.

Etiquetas de muestra adjuntas a una entrada de datos

En el siguiente diagrama, se muestra una tabla de clientes de ejemplo cust_tbl, con varias etiquetas de metadatos empresariales adjuntas a la tabla y sus columnas.

En el ejemplo, se usan etiquetas de tabla para describir la administración, la calidad y el uso de los datos, y etiquetas de columna para marcar la PII, como los NSS y la información de contacto.
Figure 1. Data Catalog admite el etiquetado a nivel de tabla y columna.

Plantillas de etiquetas

Para comenzar a etiquetar datos, primero debes crear una o más plantillas de etiquetas. Una plantilla de etiqueta puede ser pública o privada. Cuando creas una plantilla de etiqueta, la opción para crear una plantilla de etiqueta pública es la predeterminada y recomendada en la consola de Google Cloud. Una plantilla de etiqueta es un grupo de pares clave-valor de metadatos llamados campos. Tener un conjunto de plantillas es similar a tener un esquema de base de datos para los metadatos.

Puedes estructurar las etiquetas por tema. Por ejemplo:

  • Una etiqueta de administración de datos con campos para: administración de datos, fecha de retención, fecha de eliminación, PII (sí o no), clasificación de datos (público, confidencial, sensible, reglamentario)
  • Una etiqueta de calidad de los datos con campos para los problemas de calidad, la frecuencia de actualización y la información de SLO.
  • Una etiqueta de uso de datos con campos para los usuarios principales, las principales búsquedas y los usuarios diarios promedio

Luego, puedes mezclar y combinar etiquetas a través de las etiquetas relevantes para cada recurso de datos y tus necesidades comerciales.

Campos en una etiqueta

Las etiquetas contienen uno o más campos en los que se puede almacenar información. Los campos de una etiqueta se definen mediante una plantilla de etiqueta, y cada campo se puede usar para almacenar uno o más valores. Cada etiqueta es una instancia de una plantilla de etiqueta, que se puede aplicar a una entrada de datos completa o a tablas o columnas particulares. Una etiqueta en una columna podría indicar, por ejemplo, si esa columna contiene PII, si quedó obsoleta o qué fórmula se usó para calcular un valor determinado.

Cada campo contiene un ID, un nombre visible y un tipo. El tipo puede ser string, double, boolean, enum (enumeración) o datetime. Cuando el tipo es enum, la plantilla también almacena los valores permitidos para el campo.

Los campos se almacenan en la plantilla como un conjunto ordenado, en el que el orden representa la importancia relativa de un campo en relación con los otros campos.

Los campos son opcionales, a menos que estén marcados como obligatorios. Un campo obligatorio debe recibir un valor cuando se usa la plantilla, mientras que un campo opcional puede dejarse en blanco.

No puedes cambiar un campo opcional a obligatorio después de crear tu plantilla.

Campos de muestra en una etiqueta

A continuación, se muestra un ejemplo de plantilla de etiqueta de la quickstart que contiene varios tipos de campo:

La plantilla de etiqueta de ejemplo define los campos para la fuente de datos, la cantidad de
 filas, la presencia de PII y el tipo de PII.
Figure 2. Una plantilla de etiqueta de Data Catalog

Esta es una etiqueta creada a partir de la plantilla, con valores proporcionados para cada campo:

La etiqueta de ejemplo indica que sus datos provienen de una tabla con nombre, tienen cientos de millones de filas y no tienen PII.
Figura 3: Una etiqueta creada a partir de una plantilla de etiqueta.

Para ayudarte a comenzar, Data Catalog incluye una galería de plantillas de etiquetas de muestra para ilustrar los casos de uso comunes del etiquetado. Recurre a estos ejemplos para descubrir lo que puedes hacer con el etiquetado, obtener inspiración o utilizarlos como punto de partida para crear tu propia infraestructura de etiquetado.

Para usar una plantilla de etiqueta, realiza los siguientes pasos:

  1. En la consola de Google Cloud, ve a la página Plantillas de etiquetas de Dataplex.

    Ir a Plantillas de etiquetas

  2. Haz clic en Crear plantilla de etiqueta.

    La galería de plantillas se muestra como parte de la página Crear plantilla.

Después de seleccionar una plantilla de la galería, puedes usarla como cualquier otra plantilla de etiqueta. Puedes agregar y borrar atributos, así como cambiar lo que quieras en la plantilla para que se adapte a las necesidades de tu empresa. Luego, puedes buscar los campos y valores de plantilla con Data Catalog.

Control de acceso para etiquetas

Las etiquetas y sus metadatos pueden contener información sensible y es posible que los equipos de administración de datos deseen que ciertas etiquetas sean visibles solo para grupos específicos de usuarios. Data Catalog proporciona control de acceso a las plantillas de etiquetas, y esta configuración se extiende a todas las etiquetas creadas con esa plantilla.

Puedes configurar plantillas de etiquetas con muchas configuraciones de control de acceso, por ejemplo:

  • Una plantilla de etiqueta que solo el creador de la plantilla puede usar para crear etiquetas
  • Una plantilla de etiqueta que crea etiquetas que solo son visibles para un conjunto selecto de usuarios
  • Una plantilla de etiqueta que un conjunto selecto de usuarios puede usar para crear etiquetas que solo sean visibles para otro conjunto de usuarios (posiblemente idénticas)
  • Una plantilla de etiqueta visible para todos los usuarios de una organización o un proyecto (etiqueta pública)

El acceso a una plantilla de etiqueta se otorga o se rechaza con las funciones de IAM. Estos proporcionan permisos para crear, editar y usar la plantilla de etiqueta. Estas son algunas funciones disponibles de Data Catalog:

  • Para permitir que un usuario cree o actualice una plantilla de etiqueta, debes otorgarle el rol de creador de plantillas de etiquetas.

  • Para permitir que un usuario aplique etiquetas a una entrada de datos, debes otorgarle el rol del usuario de plantilla de etiqueta.

Consulta Administración de identidades y accesos de Data Catalog para obtener más información.

Recursos regionales

Cada etiqueta y plantilla de etiqueta se almacena en una región de Google Cloud en particular. Puedes usar una plantilla de etiqueta para crear una etiqueta en cualquier región, por lo que no necesitas crear copias de tu plantilla si tienes entradas de datos distribuidas en varias regiones.

Pasos siguientes