Glosario de Dataplex

Dataplex unifica el recorrido de extremo a extremo para las estadísticas con una administración centralizada de los datos y los servicios. Con este glosario, se espera definir los términos utilizados en el sistema de gestión.

Lista de glosarios

Acción

Problemas que pueden resolver los usuarios Por ejemplo:

  • No se pudo propagar la política de seguridad debido a que el usuario proporcionó un grupo de seguridad inexistente.
  • Dataplex no puede acceder a un recurso administrado.
  • El trabajo de detección falló por varios motivos (el usuario puede solucionarlo). Esto puede deberse a problemas con los datos del usuario, como formatos de datos no válidos, esquema incompatible en las particiones, nombres de partición incoherentes, etcétera.

Dataplex genera las acciones automáticamente. Dataplex borra algunas acciones de forma automática cuando se detecta que el usuario resolvió el problema subyacente. El usuario debe marcar de forma explícita las demás acciones como resueltas.

Por ejemplo, después de que el usuario se encarga de las acciones de descubrimiento, debe llamar a la API de Dataplex para marcarlas como resueltas, de modo que el sistema de descubrimiento pueda reanudarse y programar una ejecución de descubrimiento inmediata.

Recurso

Asset representa un único recurso administrado (bucket o conjunto de datos) en Dataplex. También es un marcador de posición para varias opciones de configuración del recurso y los subsistemas administrados (descubrimiento, administración de políticas, etc.) que actúan en función de él.

BigQuery

BigQuery es el almacén de datos de estadísticas completamente administrado, rentable y a escala de petabytes de Google Cloud que te permite ejecutar análisis en grandes cantidades de datos casi en tiempo real.

Con BigQuery, no debes configurar ni administrar ninguna infraestructura, lo que te permite enfocarte en encontrar estadísticas significativas mediante SQL estándar y aprovechar los modelos de precios flexibles en las opciones según demanda y tarifa plana. Más información

Datos

Datos del usuario dentro de un recurso administrado Por ejemplo, objetos de Cloud Storage en un bucket o filas de tablas de BigQuery en un conjunto de datos. En el caso de Cloud Storage, los objetos son unidades inmutables de datos del usuario. En el caso de un conjunto de datos de BigQuery, las filas dentro de las tablas secundarias se consideran datos del usuario.

Data Catalog

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado que permite a las organizaciones descubrir, administrar y comprender todos sus datos en Google Cloud con rapidez. Más información

Cuenta de servicio de Dataplex

Representa una cuenta de servicio de Google Cloud administrada de forma interna que realiza varias acciones en nombre de Dataplex. Por ejemplo, el sistema de descubrimiento, el sistema de administración de políticas, etcétera, usan las credenciales de la cuenta de servicio.

La cuenta de servicio necesita varios permisos de IAM en proyectos y recursos administrados por el usuario para realizar su trabajo. Algunas se otorgan automáticamente como parte de la activación de Dataplex en un proyecto. Otros (por ejemplo, adjuntar un bucket de un proyecto diferente) deben otorgarse de forma manual por el usuario.

Dataproc Metastore

Dataproc Metastore es un servicio de almacén de metadatos nativo de OSS, con alta disponibilidad, ajuste de escala automático y completamente administrado que simplifica en gran medida la administración de metadatos técnicos. El servicio de Dataproc Metastore se basa en el almacén de metadatos de Apache Hive y funciona como un componente fundamental de los data lakes empresariales. Más información

Detección

Subsistema responsable de rastrear los datos del usuario y extraer metadatos.

Grupo de entradas

Un grupo de entradas contiene entradas. Un grupo de entrada es un conjunto de entradas relacionadas de forma lógica junto con las políticas de Identity and Access Management que especifican los usuarios que pueden crear, editar y ver entradas dentro de un grupo de entradas.

Conjunto de archivos

Un conjunto de archivos es una entrada dentro de un grupo de entradas creado por el usuario. Un conjunto de archivos se define mediante uno o más patrones de archivo que especifican un conjunto de uno o más archivos de Cloud Storage. Las entradas del conjunto de archivos se pueden usar para organizar y descubrir archivos de Cloud Storage y agregarles metadatos.

Lake

Un lake es un repositorio centralizado para administrar datos empresariales en toda la organización, que se encuentran distribuidos en muchos proyectos de la nube y que se almacenan en una variedad de servicios de almacenamiento, como Cloud Storage y BigQuery. Los recursos adjuntos a un lake se denominan recursos administrados. Los datos dentro de estos recursos administrados pueden ser estructurados o no estructurados.

Un lake proporciona herramientas a los administradores de datos para organizar, proteger y administrar sus datos a gran escala, y proporciona a los ingenieros y científicos de datos una experiencia integrada con el fin de buscar, descubrir, analizar y transformar datos y metadatos asociados con facilidad.

Registros

Registros de Stackdriver proporcionados por Dataplex que los usuarios pueden usar para obtener estadísticas sobre el funcionamiento de su lake, realizar depuraciones, establecer alertas, etcétera. Por ejemplo, registros que tienen las siguientes características:

  • Destaca acciones que requieran atención
  • Cambios en los metadatos de la superficie
  • Muestra un resumen de las ejecuciones de trabajos
  • Acciones de trabajo de detección de plataformas (archivos leídos, escritos, etcétera)

Metadata

Información que el sistema de descubrimiento extrae de los datos del usuario. Por ejemplo, el nombre del bucket de Cloud Storage, las propiedades del conjunto de datos de BigQuery, el esquema de las tablas secundarias de BigQuery, etcétera.

Existen dos tipos de metadatos:

  • Metadatos técnicos, como un esquema
  • Metadatos operativos, como estadísticas de datos (recuento y tamaño total de objetos en Cloud Storage)

Métricas

Las métricas representan las métricas de Stackdriver que se exponen como APIs públicas de Dataplex, que los usuarios pueden usar para configurar alertas de Stackdriver o visualizarlas a través de gráficos. Consulta Cloud Monitoring de Dataplex para obtener más información sobre métricas específicas de Dataplex.

Propagación

El cambio de ciertas configuraciones de recursos inicia un proceso asíncrono en segundo plano para conciliar el estado de los recursos administrados con lo que el usuario especificó. Por ejemplo, la configuración de seguridad especificada en un lake debe propagarse a la política de IAM de miles de recursos administrados (buckets/conjuntos de datos) en ese lake. No sucede de inmediato cuando se invoca la API. Este proceso se conoce como propagación.

El estado de la propagación se reflejará en los campos de estado relevantes, y los errores se mostrarán a través de acciones.

Recurso

Recurso de Dataplex

Recursos de Google Cloud definidos por el servicio de Dataplex, como el lake, la zona de datos y el recurso.

Recurso secundario

Elemento secundario de un recurso administrado. Por ejemplo, objetos de Cloud Storage o tablas, rutinas o modelos de BigQuery. La administración de políticas de recursos secundarias no se realiza directamente a través de Dataplex, sin embargo, su política vigente está influenciada por lo que se hereda del elemento superior.

Recurso administrado

Recursos de Google Cloud que se pueden administrar y descubrir a través de Dataplex. Actualmente, los buckets de Cloud Storage y los conjuntos de datos de BigQuery Un recurso administrado puede pertenecer a un proyecto diferente que el lake, pero debe pertenecer a la misma organización.

Spec

Especificación proporcionada por el usuario. Por ejemplo:

  • En las especificaciones de seguridad, se especifica la configuración de seguridad para el lake, la zona o el recurso.
  • La especificación de un recurso especifica un puntero al recurso administrado (bucket o conjunto de datos).
  • Las especificaciones de descubrimiento especifican la configuración de detección de un recurso.

Estado

Representa el estado de las especificaciones que proporcionó el usuario. Por ejemplo:

  • El estado de seguridad representa el estado de la propagación de la política de seguridad (como una especificación de seguridad) a los buckets o conjuntos de datos subyacentes.
  • El estado del recurso representa el estado del recurso administrado (ok / no encontrado/permiso denegado, etc.) que se especifica en la especificación del recurso.
  • El estado de detección representa el estado del trabajo de descubrimiento, controlado por las especificaciones de descubrimiento.

Tabla

Tabla lógica (filas y columnas) con un esquema bien definido (nombres y tipos de columnas) que está respaldada por datos (o un subconjunto de ellos) en un recurso administrado. Por ejemplo, una tabla puede estar respaldada por un subconjunto de objetos de Cloud Storage en un bucket de Cloud Storage o una tabla de BigQuery en el conjunto de datos de BigQuery.

  • Las tablas como un concepto de primera clase aparecen en Dataproc Metastore, Data Catalog y BigQuery (registro de metadatos). Las tablas no se mostrarán de manera descendente si el descubrimiento o la publicación en el sistema posterior no están habilitados. Por ejemplo, las tablas detectadas a partir de los datos del usuario en Cloud Storage no aparecerán en BigQuery si la publicación en BigQuery no está habilitada.
  • Lo descubrió el sistema de descubrimiento. El usuario no puede crearlo.
  • Los nombres de las tablas se generan para que sean cortos y significativos, de modo que sean fáciles de consultar. Los nombres contienen tres partes: [Prefix_]table root path[_Sequence number].

Zona

Un contenedor lógico de uno o más recursos de datos creados dentro de un lake. Una zona de datos se puede usar para modelar las unidades de negocios dentro de una organización (por ejemplo, ventas frente a operaciones). Las zonas de datos también modelan el recorrido de los datos o la preparación para el consumo.

Zona sin procesar

Una zona de datos que contiene datos que necesitan procesamiento adicional antes de que se consideren listos para el consumo y las cargas de trabajo de estadísticas.

Zona seleccionada

Una zona de datos que contiene datos que se considera que están listos para un consumo más amplio y cargas de trabajo de estadísticas. Los datos estructurados seleccionados que se almacenan en Cloud Storage deben cumplir con ciertos formatos de archivo (Parquet, Avro y ORC) y organizarse en un diseño de directorio compatible con Hive.

Próximos pasos