Glosario de Dataplex

Dataplex unifica el recorrido de extremo a extremo de las estadísticas con una administración centralizada de datos y servicios. En este glosario se definen los términos usados en el sistema de administración.

Lista de glosario

Acción

Problemas prácticos del usuario. Por ejemplo:

  • No se pudo propagar la política de seguridad debido a que el usuario proporcionó un grupo de seguridad inexistente.
  • Dataplex no puede acceder a un recurso administrado.
  • El trabajo de descubrimiento falló por varios motivos (que el usuario puede solucionar). Esto puede deberse a problemas de datos del usuario, como formatos de datos no válidos, esquema incompatible entre particiones o nombres de partición incoherentes, etcétera.

Dataplex genera acciones automáticamente. Dataplex borra algunas acciones de forma automática cuando se detecta que el usuario resolvió el problema subyacente. El usuario debe marcar explícitamente otras acciones como resueltas.

Por ejemplo, después de que el usuario se encarga de las acciones de descubrimiento, este debe llamar a la API de Dataplex para marcar las acciones como resueltas, de modo que el sistema de descubrimiento pueda reanudar y programar una ejecución de descubrimiento inmediata.

Recurso

El recurso representa un solo recurso administrado (bucket/conjunto de datos) en Dataplex. También es un marcador de posición para varias opciones de configuración de los recursos administrados y los subsistemas (descubrimiento, administración de políticas, etc.) que actúan sobre él.

BigQuery

BigQuery es el almacén de datos de estadísticas rentable, completamente administrado y a escala de petabytes de Google Cloud que te permite ejecutar estadísticas sobre grandes cantidades de datos casi en tiempo real.

Con BigQuery, no debes configurar ni administrar ninguna infraestructura, lo que te permite enfocarte en encontrar estadísticas significativas mediante SQL estándar y aprovechar los modelos de precios flexibles en las opciones según demanda y de tarifa plana. Más información

Precio de

Datos del usuario dentro de un recurso administrado Por ejemplo, los objetos de Cloud Storage en un bucket o las filas de una tabla de BigQuery. En Cloud Storage, los objetos son unidades inmutables de datos del usuario. En el caso de un conjunto de datos de BigQuery, las filas dentro de las tablas secundarias se consideran datos del usuario.

Data Catalog

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado que permite a las organizaciones descubrir, administrar y comprender todos sus datos en Google Cloud con rapidez. Más información

Cuenta de servicio de Dataplex

Representa un agente de servicio, un tipo de cuenta de servicio que realiza varias acciones en nombre de Dataplex. Por ejemplo, el sistema de detección y el sistema de administración de políticas dependen del agente de servicio.

El agente de servicio necesita varios permisos de IAM en los recursos y proyectos administrados por el usuario para realizar su trabajo. Algunos se otorgan automáticamente como parte de la activación de Dataplex en un proyecto. Otros (por ejemplo, adjuntar un bucket de un proyecto diferente) deben ser otorgados de forma manual.

Dataproc Metastore

Dataproc Metastore es un servicio de almacén de metadatos nativo de OSS, completamente administrado, con alta disponibilidad, con ajuste de escala automático y reparación automática que simplifica en gran medida la administración de metadatos técnicos. El servicio de Dataproc Metastore se basa en el almacén de metadatos de Apache Hive y es un componente fundamental para los data lakes empresariales. Más información

Descubrimiento

Subsistema responsable del rastreo de los datos del usuario y la extracción de los metadatos.

Grupo de entradas

Un grupo de entradas contiene entradas. Un grupo de entradas es un conjunto de entradas relacionadas de forma lógica junto con las políticas de Identity and Access Management que especifican los usuarios que pueden crear, editar y ver entradas dentro de un grupo de entradas.

Conjunto de archivos

Un conjunto de archivos es una entrada dentro de un grupo de entradas creado por el usuario. Un conjunto de archivos se define mediante uno o más patrones de archivo que especifican un conjunto de uno o más archivos de Cloud Storage. Las entradas del conjunto de archivos se pueden usar para organizar y descubrir archivos de Cloud Storage y agregarles metadatos.

Lake

Un lake es un repositorio centralizado para administrar datos empresariales en toda la organización, distribuidos en muchos proyectos de la nube, y almacenados en una variedad de servicios de almacenamiento, como Cloud Storage y BigQuery. Los recursos conectados a un lake se denominan recursos administrados. Los datos dentro de estos recursos administrados pueden ser estructurados o no estructurados.

Un lake proporciona a los administradores de datos herramientas para organizar, proteger y administrar sus datos a gran escala, y proporciona a los ingenieros y científicos de datos una experiencia integrada para buscar, descubrir, analizar y transformar datos y metadatos asociados con facilidad.

Registros

Registros de Stackdriver proporcionados por Dataplex que los usuarios pueden usar para obtener estadísticas sobre el funcionamiento de su lake, realizar depuraciones, establecer alertas, etcétera. Por ejemplo, registros que hacen lo siguiente:

  • Destaca las acciones que requieren atención
  • Cambios en los metadatos de la superficie
  • Muestra un resumen de las ejecuciones de trabajos
  • Acciones de trabajo de descubrimiento de superficies (archivos leídos, escritos, etcétera)

Metadatos

Información que extrae el sistema de descubrimiento de los datos del usuario. Por ejemplo, el nombre del bucket de Cloud Storage, las propiedades del conjunto de datos de BigQuery, el esquema de las tablas secundarias de BigQuery, etcétera.

Existen dos tipos de metadatos:

  • Los metadatos técnicos, como los esquemas
  • Metadatos operativos, como estadísticas de datos (recuento total de objetos y tamaño en Cloud Storage)

Métricas

Las métricas representan métricas de Stackdriver que Dataplex expone como una API pública, que los usuarios pueden usar para configurar alertas de Stackdriver o visualizarlas a través de gráficos. Consulta Cloud Monitoring de Dataplex para obtener más información sobre las métricas específicas de Dataplex.

Propagación

Cambiar ciertas configuraciones de recursos inicia un proceso asíncrono en segundo plano para conciliar el estado de los recursos administrados con lo que especificó el usuario. Por ejemplo, la configuración de seguridad especificada en un lake debe propagarse a la política de IAM de los miles de recursos administrados (buckets o conjuntos de datos) debajo de ese lake. No sucede de inmediato cuando se invoca a la API. Este proceso se conoce como propagación.

El estado de la propagación se reflejará en los campos de estado relevantes, y los errores se mostrarán a través de acciones.

Recurso

Recurso de Dataplex

Recursos de Google Cloud definidos por el servicio de Dataplex, como lake, zona de datos y recurso.

Recurso secundario

Elemento secundario de un recurso administrado. Por ejemplo, objetos de Cloud Storage o tabla, rutina o modelo de BigQuery. La administración de políticas de recursos secundarias no se realiza directamente a través de Dataplex, sin embargo, su política vigente se ve influenciada por lo que se hereda de la política superior.

Recurso administrado

Recursos de Google Cloud que pueden administrarse y descubrirse a través de Dataplex. Actualmente, los buckets de Cloud Storage y los conjuntos de datos de BigQuery. Un recurso administrado puede pertenecer a un proyecto diferente al lake, pero debe pertenecer a la misma organización.

Especificación

Especificación proporcionada por el usuario. Por ejemplo:

  • Las especificaciones de seguridad especifican la configuración de seguridad para el lake, la zona o el recurso.
  • Las especificaciones de un recurso especifican un puntero para el recurso administrado (bucket/conjunto de datos).
  • La especificación de descubrimiento especifica la configuración de detección de un recurso.

Estado

Representa el estado de las especificaciones que proporciona el usuario. Por ejemplo:

  • El estado de seguridad representa el estado de la propagación de la política de seguridad (como una especificación de seguridad) a los buckets o conjuntos de datos subyacentes.
  • El estado del recurso representa el estado del recurso administrado (ok / no encontrado/permiso denegado, etc.) que se especifica en la especificación del recurso.
  • El estado de descubrimiento representa el estado del trabajo de descubrimiento, que depende de las especificaciones de descubrimiento.

Tabla

Tabla lógica (filas y columnas) con un esquema bien definido (nombres y tipos de columnas) que está respaldado por datos (o un subconjunto de ellos) en un recurso administrado. Por ejemplo, una tabla puede estar respaldada por un subconjunto de objetos de Cloud Storage en un bucket de Cloud Storage o una tabla de BigQuery en el conjunto de datos de BigQuery.

  • Las tablas como concepto de primera clase se muestran en Dataproc Metastore, Data Catalog y BigQuery (registro de metadatos). Las tablas no aparecerán en sentido descendente si el descubrimiento o la publicación en el sistema descendente no están habilitados. Por ejemplo, las tablas descubiertas en los datos del usuario en Cloud Storage no se mostrarán a BigQuery si la publicación en BigQuery no está habilitada.
  • Detectada por el sistema de descubrimiento. El usuario no puede crearla.
  • Los nombres de las tablas se generan para que sean cortos y significativos, de modo que sean fáciles de consultar. Los nombres contienen tres partes, [Prefix_]table root path[_Sequence number].

Zona

Un contenedor lógico de uno o más recursos de datos creados dentro de un lake. Una zona de datos se puede usar para modelar las unidades de negocios dentro de una organización (por ejemplo, ventas frente a operaciones). Las zonas de datos también modelan el recorrido de los datos o la preparación para el consumo.

Zona sin procesar

Una zona de datos que contiene datos que necesitan un procesamiento adicional antes de que se considere como lista para el consumo y las cargas de trabajo de estadísticas.

Zona seleccionada

Una zona de datos que contiene datos que se considera que están listos para cargas de trabajo de consumo y estadísticas más amplias. Los datos estructurados seleccionados que se almacenan en Cloud Storage deben cumplir con ciertos formatos de archivo (Parquet, Avro y ORC) y organizarse en un diseño de directorio compatible con Hive.

Próximos pasos