Glosario de Dataplex

Dataplex unifica el recorrido de extremo a extremo de los análisis con una la administración centralizada de datos y servicios. En este glosario se definen términos utilizadas dentro del sistema de gestión.

Lista de glosarios

Acción

Problemas prácticos del usuario. Por ejemplo:

  • La propagación de la política de seguridad falló debido a que el usuario proporcionó un grupo de seguridad inexistente.
  • Dataplex no puede acceder a un recurso administrado.
  • El trabajo de descubrimiento falló por varios motivos (que el usuario puede solucionar). Esto puede deberse a problemas de datos del usuario, como formatos de datos no válidos, esquemas entre particiones o nombres de particiones incoherentes, etcétera.

Dataplex genera automáticamente las acciones. Dataplex borra automáticamente algunas acciones cuando se detecta que el usuario resolvió el problema subyacente. El usuario debe marcar de forma explícita otras acciones como resueltas.

Por ejemplo, después de que se realizan acciones de descubrimiento el usuario debería llamar a la API de Dataplex para marcar acciones como resueltas para que el sistema de descubrimiento pueda reanudar y programar ejecución de descubrimiento inmediato.

Recurso

El activo representa un solo recurso administrado (bucket o conjunto de datos) en Dataplex. También es un marcador de posición para varias configuraciones los recursos y subsistemas administrados (descubrimiento, administración de políticas, etcétera) que actúan sobre él.

BigQuery

BigQuery es el servicio completamente administrado, a escala de petabytes un almacén de datos de estadísticas rentable que permite ejecutar análisis en un amplio de grandes cantidades de datos casi en tiempo real.

Con BigQuery, no hay infraestructura para configurar o administrar, lo que te permite enfocarte en encontrar estadísticas con SQL estándar y aprovechar modelos de precios flexibles entre las opciones según demanda y de tarifa plana. Más información

Datos

Datos del usuario dentro de un recurso administrado Por ejemplo, los objetos de Cloud Storage en de un bucket o las filas de una tabla de BigQuery en un conjunto de datos. En el caso de Cloud Storage, los objetos son unidades inmutables de datos del usuario. En el caso de BigQuery conjunto de datos, las filas dentro de las tablas secundarias se consideran datos del usuario.

Data Catalog

Data Catalog es una solución de administración de metadatos escalable y completamente administrada de Google Cloud que permite a las organizaciones descubrir, administrar y comprender todos sus datos en Google Cloud. Más información

Cuenta de servicio de Dataplex

Representa un agente de servicio, un tipo de cuenta de servicio que realiza varias acciones en nombre de Dataplex Por ejemplo, el sistema de descubrimiento y el sistema de administración de políticas dependen del agente de servicio.

Varios permisos de IAM en los recursos y proyectos administrados por el usuario están que necesita el agente de servicio para realizar su trabajo. Algunos se otorgan automáticamente como parte de la activación de Dataplex en un proyecto. El usuario debe otorgar otros permisos de forma manual (por ejemplo, vincular un bucket de un proyecto diferente).

Dataproc Metastore

Dataproc Metastore es un servicio de almacén de metadatos nativo de OSS completamente administrado, con alta disponibilidad, de reparación automática y con ajuste de escala automático que simplifica mucho la administración de metadatos técnicos. El servicio de Dataproc Metastore se basa en el almacén de metadatos de Apache Hive y es un componente fundamental para los data lakes empresariales. Más información

Discovery

Subsistema responsable del rastreo de los datos del usuario y la extracción de los metadatos.

Grupo de entradas

Un grupo de entradas contiene entradas. Un grupo de entrada es un conjunto junto con las políticas de Identity and Access Management que especificar los usuarios que pueden crear, editar y ver entradas dentro de un grupo de entradas.

Conjunto de archivos

Un conjunto de archivos es una entrada dentro de un grupo de entradas creado por el usuario. Se define un conjunto de archivos con uno o más patrones de archivo que especifiquen un conjunto de uno o más Cloud Storage archivos. Las entradas de conjuntos de archivos se pueden usar para organizar y descubrir archivos de Cloud Storage. y agregarles metadatos.

Lake

Un lake es un repositorio centralizado para administrar datos empresariales en toda la organización distribuida en muchos proyectos de la nube y almacenada en diversos servicios de almacenamiento como Cloud Storage y BigQuery. Los recursos asociados a un lago se denominan recursos administrados. Los datos de estas los recursos administrados pueden ser estructurados o no estructurados.

Un lake ofrece a los administradores de datos herramientas para organizar, proteger y administrar datos a gran escala, y ofrece a los ingenieros y científicos de datos experiencia para buscar, descubrir, analizar y transformar datos y metadatos asociados.

Registros

Son registros de Stackdriver que proporciona Dataplex y que los usuarios pueden usar para obtener estadísticas sobre el funcionamiento de su lake, realizar depuración, configurar alertas, etc. Por ejemplo, registros que hacen lo siguiente:

  • Destaca las acciones que requieren atención
  • Cambios en los metadatos de la superficie
  • Muestra un resumen de las ejecuciones de trabajos
  • Acciones de trabajo de descubrimiento de superficies (archivos leídos, escritos, etcétera)

Metadatos

Información que extrae el sistema de descubrimiento de los datos del usuario. Por ejemplo: El nombre del bucket de Cloud Storage, las propiedades del conjunto de datos de BigQuery esquema de tablas secundarias de BigQuery, etcétera.

Existen dos tipos de metadatos:

  • Metadatos técnicos, como el esquema
  • Metadatos operativos, como estadísticas de datos (cantidad total de objetos y tamaño en Cloud Storage)

Métricas

Las métricas representan métricas de Stackdriver que Dataplex expone como una API pública, que los usuarios pueden usar para configurar alertas de Stackdriver o visualizar gráficos. Consulta Cloud Monitoring de Dataplex para obtener más información sobre métricas específicas de Dataplex.

Propagación

Cambiar ciertas configuraciones de recursos inicia un proceso de para conciliar el estado de los recursos administrados con lo que especificada. Por ejemplo, la configuración de seguridad especificada en un lake debe propagado a la política de IAM de miles de recursos administrados (buckets/conjuntos de datos) en ese lake. No sucede de inmediato cuando la API se invoca. Este proceso se conoce como propagación.

El estado de la propagación se verá reflejado los campos de estado y los errores aparecerán a través de Acciones.

Recurso

Recurso de Dataplex

Recursos de Google Cloud definidos por el servicio de Dataplex, como el lake, la zona de datos y el activo

Recurso secundario

Es un elemento secundario de un recurso administrado. Por ejemplo, objetos de Cloud Storage o BigQuery table/routine/models. La administración de políticas de recursos secundarios no se realiza directamente a través de Dataplex. Sin embargo, su política vigente se ve influenciada por lo que se hereda del recurso superior.

Recurso administrado

Recursos de Google Cloud que pueden administrarse y descubrirse a través de Dataplex. Actualmente, los buckets de Cloud Storage y los conjuntos de datos de BigQuery. Un recurso administrado puede pertenecer a un proyecto diferente del lago, pero debe pertenecer a la misma organización.

Spec

Especificación proporcionada por el usuario. Por ejemplo:

  • Las especificaciones de seguridad especifican la configuración de seguridad para el lake, la zona o el recurso.
  • La especificación de recursos de un activo especifica un puntero al recurso administrado (bucket o conjunto de datos).
  • La especificación de descubrimiento especifica la configuración de detección de un recurso.

Estado

Representa el estado de la especificación proporcionada por el usuario. Por ejemplo:

  • El estado de seguridad representa el estado de la propagación de la política de seguridad (como una especificación de seguridad) a los buckets o conjuntos de datos subyacentes.
  • El estado del recurso representa el estado del recurso administrado (bien, no encontrado, permiso denegado, etcétera), que se especifica en la especificación del recurso.
  • El estado de descubrimiento representa el estado del trabajo de descubrimiento, que se basa en según las especificaciones de descubrimiento.

Tabla

Es una tabla lógica (filas y columnas) con un esquema bien definido (nombres y tipos de columnas) que está respaldado por datos (o un subconjunto de ellos) en un recurso administrado. Por ejemplo, una tabla puede tener una copia de seguridad de un subconjunto de objetos de Cloud Storage en un bucket de Cloud Storage o una tabla de BigQuery en el conjunto de datos de BigQuery.

  • Las tablas como concepto de primera clase se muestran en Dataproc Metastore. Data Catalog y BigQuery (registro de metadatos). Las tablas no se mostrarán en el flujo descendente si no se habilita el descubrimiento o la publicación en el sistema descendente. Por ejemplo, las tablas descubiertas por el usuario datos en Cloud Storage no se mostrarán a BigQuery si la publicación en BigQuery no está habilitada.
  • El sistema de descubrimiento los detecta. El usuario no puede crearla.
  • Los nombres de las tablas se generan para que sean cortos y significativos, de modo que sean fáciles de consultar. Los nombres contienen tres partes, [Prefix_]table root path[_Sequence number].

Zona

Un contenedor lógico de uno o más recursos de datos creados dentro de un lake. Se puede usar una zona de datos para modelar las unidades de negocio dentro de una organización (por ejemplo, ventas en comparación con operaciones). Las zonas de datos también modelan el recorrido de los datos o la preparación para el consumo.

Zona sin procesar

Una zona de datos que contiene datos que necesitan procesamiento adicional antes de ser que se consideran listos para el consumo y las cargas de trabajo analíticas.

Zona seleccionada

Una zona de datos que contiene datos que se considera que están listos para usarse cargas de trabajo de consumo y análisis. Los datos estructurados seleccionados se almacenan en Cloud Storage debe cumplir con ciertos formatos de archivo (Parquet, Avro y ORC) y se organizan en un diseño de directorio compatible con Hive.

Próximos pasos