Glosario de Dataplex

Dataplex unifica el recorrido de extremo a extremo de las estadísticas con una administración centralizada de datos y servicios. El objetivo de este glosario es definir los términos que se usan en el sistema de administración.

Lista de glosarios

Acción

Problemas que el usuario puede solucionar. Por ejemplo:

  • La propagación de la política de seguridad falló debido a que el usuario proporcionó un grupo de seguridad inexistente.
  • Dataplex no puede acceder a un recurso administrado.
  • La tarea de descubrimiento falló por varios motivos (que el usuario puede solucionar). Esto puede deberse a problemas con los datos del usuario, como formatos de datos no válidos, esquemas incompatibles entre particiones o nombres de particiones incoherentes, etcétera.

Dataplex genera automáticamente las acciones. Dataplex borra automáticamente algunas acciones cuando se detecta que el usuario resolvió el problema subyacente. El usuario debe marcar de forma explícita otras acciones como resueltas.

Por ejemplo, después de que el usuario se ocupe de las acciones de descubrimiento, debe llamar a la API de Dataplex para marcar las acciones como resueltas, de modo que el sistema de descubrimiento pueda reanudar y programar una ejecución de descubrimiento inmediata.

Recurso

El activo representa un solo recurso administrado (bucket o conjunto de datos) en Dataplex. También es un marcador de posición para varias configuraciones de los subsistemas y recursos administrados (descubrimiento, administración de políticas, etcétera) que actúan en él.

BigQuery

BigQuery es el almacén de datos de estadísticas rentable, a escala de petabytes y completamente administrado de Google Cloud que te permite ejecutar estadísticas en grandes cantidades de datos casi en tiempo real.

Con BigQuery, no debes configurar ni administrar ninguna infraestructura, lo que te permite enfocarte en encontrar estadísticas significativas mediante SQL estándar y aprovechar los modelos de precios flexibles en las opciones a pedido y de tasa fija. Más información

Datos

Datos del usuario dentro de un recurso administrado Por ejemplo, objetos de Cloud Storage en un bucket o filas de tablas de BigQuery en un conjunto de datos. En el caso de Cloud Storage, los objetos son unidades inmutables de datos del usuario. En el caso de un conjunto de datos de BigQuery, las filas dentro de las tablas secundarias se consideran datos del usuario.

Data Catalog

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado que permite a las organizaciones descubrir, administrar y comprender todos sus datos en Google Cloud con rapidez. Más información

Cuenta de servicio de Dataplex

Representa un agente de servicio, un tipo de cuenta de servicio que realiza varias acciones en nombre de Dataplex. Por ejemplo, el sistema de descubrimiento y el sistema de administración de políticas dependen del agente de servicio.

El agente de servicio necesita varios permisos de IAM en los recursos y proyectos administrados por el usuario para realizar su trabajo. Algunos se otorgan automáticamente como parte de la activación de Dataplex en un proyecto. El usuario debe otorgar otros permisos de forma manual (por ejemplo, adjuntar un bucket de un proyecto diferente).

Dataproc Metastore

Dataproc Metastore es un servicio de almacén de metadatos nativo de OSS completamente administrado, con alta disponibilidad, de reparación automática y con ajuste de escala automático que simplifica mucho la administración de metadatos técnicos. El servicio de Dataproc Metastore se basa en el almacén de metadatos de Apache Hive y es un componente fundamental para los data lakes empresariales. Más información

Discovery

Es el subsistema responsable de rastrear los datos del usuario y extraer metadatos.

Grupo de entradas

Un grupo de entradas contiene entradas. Un grupo de entradas es un conjunto de entradas relacionadas de forma lógica con políticas de Identity and Access Management que especifican los usuarios que pueden crear, editar y ver entradas dentro de un grupo de entradas.

Conjunto de archivos

Un conjunto de archivos es una entrada dentro de un grupo de entradas creado por el usuario. Un conjunto de archivos se define mediante uno o más patrones de archivo que especifican un conjunto de uno o más archivos de Cloud Storage. Las entradas de conjunto de archivos se pueden usar para organizar y descubrir archivos de Cloud Storage, y para agregarles metadatos.

Lake

Un lago es un repositorio centralizado para administrar datos empresariales en toda la organización, distribuidos en muchos proyectos en la nube y almacenados en una variedad de servicios de almacenamiento, como Cloud Storage y BigQuery. Los recursos adjuntos a un lago se denominan recursos administrados. Los datos dentro de estos recursos administrados pueden ser estructurados o no estructurados.

Un lago les proporciona a los administradores de datos herramientas para organizar, proteger y administrar sus datos a gran escala, y les brinda a los científicos de datos y a los ingenieros de datos una experiencia integrada para buscar, descubrir, analizar y transformar fácilmente los datos y los metadatos asociados.

Registros

Los registros de Stackdriver que proporciona Dataplex y que los usuarios pueden usar para obtener estadísticas sobre el funcionamiento de su lake, realizar depuración, configurar alertas, etc. Por ejemplo, registros que hacen lo siguiente:

  • Acciones en la superficie que requieren atención
  • Cómo mostrar cambios en los metadatos
  • Cómo mostrar un resumen de las ejecuciones de trabajos
  • Acciones de trabajo de descubrimiento de la superficie (archivos leídos, escritos, etcétera)

Metadatos

Es la información que el sistema de descubrimiento extrae de los datos del usuario. Por ejemplo, el nombre del bucket de Cloud Storage, las propiedades del conjunto de datos de BigQuery, el esquema de las tablas de BigQuery secundarias, etcétera.

Existen dos tipos de metadatos:

  • Metadatos técnicos, como el esquema
  • Metadatos operativos, como estadísticas de datos (cantidad total de objetos y tamaño en Cloud Storage)

Métricas

Las métricas representan las métricas de Stackdriver que Dataplex expone como API públicas y que los usuarios pueden usar para configurar alertas de Stackdriver o visualizarlas a través de gráficos. Consulta Cloud Monitoring de Dataplex para obtener más información sobre métricas específicas de Dataplex.

Propagación

Si cambias ciertas configuraciones de recursos, se inicia un proceso asíncrono en segundo plano para conciliar el estado de los recursos administrados con lo que especificó el usuario. Por ejemplo, la configuración de seguridad especificada en un lake debe propagarse a la política de IAM de potencialmente miles de recursos administrados (buckets o conjuntos de datos) en ese lake. No ocurre de inmediato cuando se invoca la API. Este proceso se denomina propagación.

El estado de la propagación se reflejará en los campos de estado relevantes, y los errores se mostrarán a través de acciones.

Recurso

Recurso de Dataplex

Recursos de Google Cloud definidos por el servicio de Dataplex, como el lake, la zona de datos y el activo

Recurso secundario

Es un elemento secundario de un recurso administrado. Por ejemplo, objetos de Cloud Storage o tablas, rutinas o modelos de BigQuery. La administración de políticas de recursos secundarios no se realiza directamente a través de Dataplex. Sin embargo, su política vigente se ve influenciada por lo que se hereda del recurso superior.

Recurso administrado

Recursos de Google Cloud que se pueden administrar y descubrir a través de Dataplex. Actualmente, los buckets de Cloud Storage y los conjuntos de datos de BigQuery. Un recurso administrado puede pertenecer a un proyecto diferente del lago, pero debe pertenecer a la misma organización.

Spec

Especificación que proporcionó el usuario. Por ejemplo:

  • La especificación de seguridad especifica la configuración de seguridad para el lago, la zona o el activo.
  • La especificación de recursos de un activo especifica un puntero al recurso administrado (bucket o conjunto de datos).
  • La especificación de descubrimiento especifica la configuración de descubrimiento de un recurso.

Estado

Representa el estado de la especificación proporcionada por el usuario. Por ejemplo:

  • El estado de seguridad representa el estado de la propagación de la política de seguridad (como una especificación de seguridad) a los buckets o conjuntos de datos subyacentes.
  • El estado del recurso representa el estado del recurso administrado (bien, no encontrado, permiso denegado, etcétera), que se especifica en la especificación del recurso.
  • El estado de la detección representa el estado del trabajo de detección, que se basa en las especificaciones de detección.

Tabla

Es una tabla lógica (filas y columnas) con un esquema bien definido (nombres y tipos de columnas) que está respaldado por datos (o un subconjunto de ellos) en un recurso administrado. Por ejemplo, una tabla puede tener una copia de seguridad de un subconjunto de objetos de Cloud Storage en un bucket de Cloud Storage o una tabla de BigQuery en el conjunto de datos de BigQuery.

  • Las tablas como concepto de primera clase se muestran en Dataproc Metastore, Data Catalog y BigQuery (registro de metadatos). Las tablas no se mostrarán en el sistema downstream si no se habilita el descubrimiento o la publicación en el sistema downstream. Por ejemplo, las tablas descubiertas a partir de los datos del usuario en Cloud Storage no se mostrarán en BigQuery si no está habilitada la publicación en BigQuery.
  • El sistema de descubrimiento los detecta. El usuario no puede crearlos.
  • Los nombres de las tablas se generan para que sean cortos y significativos, de modo que sean fáciles de consultar. Los nombres contienen tres partes, [Prefix_]table root path[_Sequence number].

Zona

Un contenedor lógico de uno o más recursos de datos creados dentro de un lago. Se puede usar una zona de datos para modelar las unidades de negocio dentro de una organización (por ejemplo, ventas en comparación con operaciones). Las zonas de datos también modelan el recorrido de los datos o su nivel de preparación para el consumo.

Zona sin procesar

Es una zona de datos que contiene datos que necesitan un procesamiento adicional antes de que se consideren listos para el consumo y las cargas de trabajo de análisis.

Zona seleccionada

Es una zona de datos que contiene datos que se consideran listos para cargas de trabajo de consumo y análisis más amplias. Los datos estructurados seleccionados almacenados en Cloud Storage deben cumplir con ciertos formatos de archivo (Parquet, Avro y ORC) y organizarse en un diseño de directorio compatible con Hive.

Próximos pasos