Glosario de Dataplex

Dataplex unifica el recorrido de extremo a extremo de las estadísticas con una la administración centralizada de datos y servicios. En este glosario se definen términos utilizadas dentro del sistema de gestión.

Lista de glosario

Acción

Problemas prácticos del usuario. Por ejemplo:

  • No se pudo propagar la política de seguridad debido a que un grupo de seguridad no existe proporcionados por el usuario.
  • Dataplex no puede acceder a un recurso administrado.
  • El trabajo de descubrimiento falló por varios motivos (que el usuario puede solucionar). Esto puede deberse a problemas de datos del usuario, como formatos de datos no válidos, esquemas entre particiones o nombres de particiones incoherentes, etcétera.

Dataplex genera acciones automáticamente. Algunas acciones son que Dataplex puede borrar automáticamente cuando el problema subyacente que el usuario haya resuelto. Otras acciones deben indicarse explícitamente que el usuario marcó como resuelto.

Por ejemplo, después de que se realizan acciones de descubrimiento el usuario debería llamar a la API de Dataplex para marcar acciones como resueltas, de modo que el sistema de descubrimiento pueda reanudar y programar una ejecución de descubrimiento inmediato.

Recurso

El recurso representa un único recurso administrado (bucket/conjunto de datos) en Dataplex También es un marcador de posición para varias configuraciones los recursos y subsistemas administrados (descubrimiento, administración de políticas, etcétera) que actúan sobre él.

BigQuery

BigQuery es el servicio completamente administrado, a escala de petabytes un almacén de datos de estadísticas rentable que permite ejecutar análisis en un amplio de grandes cantidades de datos casi en tiempo real.

Con BigQuery, no hay infraestructura para configurar o administrar, lo que te permite enfocarte en encontrar estadísticas con SQL estándar y aprovechar modelos de precios flexibles entre las opciones según demanda y de tarifa plana. Más información

Datos

Datos del usuario dentro de un recurso administrado Por ejemplo, los objetos de Cloud Storage en de un bucket o las filas de una tabla de BigQuery en un conjunto de datos. En el caso de Cloud Storage, los objetos son unidades inmutables de datos del usuario. En el caso de BigQuery conjunto de datos, las filas dentro de las tablas secundarias se consideran datos del usuario.

Data Catalog

Data Catalog es una solución de administración de metadatos escalable y completamente administrada de Google Cloud que permite a las organizaciones descubrir, administrar y comprender todos sus datos en Google Cloud. Más información

Cuenta de servicio de Dataplex

Representa un agente de servicio, un tipo de cuenta de servicio que realiza varias acciones en nombre de Dataplex Por ejemplo, el sistema de detección y la política de administración de identidades y administración basados en el agente de servicio.

Varios permisos de IAM en los recursos y proyectos administrados por el usuario están que necesita el agente de servicio para realizar su trabajo. Algunos se otorgan automáticamente como parte de la activación de Dataplex en un proyecto. Otras (por ejemplo, adjuntar un bucket de un proyecto diferente) deben otorgarse manualmente usuario.

Dataproc Metastore

Dataproc Metastore es una solución completamente administrada, con alta disponibilidad, con ajuste de escala automático servicio de almacén de metadatos nativo de OSS que simplifica en gran medida los problemas técnicos la administración de metadatos. El servicio de Dataproc Metastore se basa en Apache Hive tiene un metastore y es un componente fundamental para las empresas y data lakes. Más información

Discovery

Subsistema responsable del rastreo de los datos del usuario y la extracción de los metadatos.

Grupo de entradas

Un grupo de entradas contiene entradas. Un grupo de entrada es un conjunto junto con las políticas de Identity and Access Management que especificar los usuarios que pueden crear, editar y ver entradas dentro de un grupo de entradas.

Conjunto de archivos

Un conjunto de archivos es una entrada dentro de un grupo de entradas creado por el usuario. Se define un conjunto de archivos con uno o más patrones de archivo que especifiquen un conjunto de uno o más Cloud Storage archivos. Las entradas de conjuntos de archivos se pueden usar para organizar y descubrir archivos de Cloud Storage. y agregarles metadatos.

Lake

Un lake es un repositorio centralizado para administrar datos empresariales en toda la organización distribuida en muchos proyectos de la nube y almacenada en diversos servicios de almacenamiento como Cloud Storage y BigQuery. El recursos adjuntos a un lake se denominan recursos administrados. Los datos de estas los recursos administrados pueden ser estructurados o no estructurados.

Un lake ofrece a los administradores de datos herramientas para organizar, proteger y administrar datos a gran escala, y ofrece a los ingenieros y científicos de datos experiencia para buscar, descubrir, analizar y transformar datos y metadatos asociados.

Registros

Registros de Stackdriver proporcionados por Dataplex que los usuarios pueden usar para obtener información sobre el funcionamiento de su lake, realizar depuraciones, establecer alertas, etcétera. Por ejemplo, registros que:

  • Destaca las acciones que requieren atención
  • Cambios en los metadatos de la superficie
  • Muestra un resumen de las ejecuciones de trabajos
  • Acciones de trabajo de descubrimiento de superficies (archivos leídos, escritos, etcétera)

Metadatos

Información que extrae el sistema de descubrimiento de los datos del usuario. Por ejemplo: El nombre del bucket de Cloud Storage, las propiedades del conjunto de datos de BigQuery esquema de tablas secundarias de BigQuery, etcétera.

Existen dos tipos de metadatos:

  • Los metadatos técnicos, como los esquemas
  • Metadatos operativos, como estadísticas de datos (recuento total de objetos y tamaño en Cloud Storage)

Métricas

Las métricas representan métricas de Stackdriver que Dataplex expone como una API pública, que los usuarios pueden usar para configurar alertas de Stackdriver o visualizar gráficos. Consulta Dataplex Cloud Monitoring para obtener más información sobre métricas específicas de Dataplex.

Propagación

Cambiar ciertas configuraciones de recursos inicia un proceso de para conciliar el estado de los recursos administrados con lo que especificada. Por ejemplo, la configuración de seguridad especificada en un lake se debe propagado a la política de IAM de miles de recursos administrados (buckets/conjuntos de datos) en ese lake. No sucede inmediatamente cuando la API se invoca. Este proceso se conoce como propagación.

El estado de la propagación se verá reflejado los campos de estado y los errores aparecerán a través de Acciones.

Recurso

Recurso de Dataplex

Los recursos de Google Cloud definidos por el servicio de Dataplex, como lake, zona de datos y recurso.

Recurso secundario

Elemento secundario de un recurso administrado. Por ejemplo, objetos de Cloud Storage o BigQuery tabla, rutina o modelo. La administración de políticas de recursos secundarios no se realiza de forma directa a través de Dataplex, sin embargo, su política efectiva se ve influenciada por lo que se hereda del elemento superior.

Recurso administrado

Recursos de Google Cloud que pueden administrarse y descubrirse a través de Dataplex. Actualmente, los buckets de Cloud Storage y los conjuntos de datos de BigQuery. R recurso administrado pueden pertenecer a un proyecto diferente al lake, pero deben pertenecer a la misma organización.

Spec

Especificación proporcionada por el usuario. Por ejemplo:

  • Las especificaciones de seguridad especifican la configuración de seguridad para el lake, la zona o el recurso.
  • Las especificaciones de un recurso especifican un puntero para el recurso administrado (bucket/conjunto de datos).
  • La especificación de descubrimiento especifica la configuración de detección de un recurso.

Estado

Representa el estado de la especificación que proporciona el usuario. Por ejemplo:

  • El estado de seguridad representa el estado de la propagación de la política de seguridad. (como una especificación de seguridad) a los buckets o conjuntos de datos subyacentes.
  • El estado del recurso representa el estado del recurso administrado (ok / no encontrado). / permiso denegado, etc.) que se especifica en la especificación del recurso.
  • El estado de descubrimiento representa el estado del trabajo de descubrimiento, que se basa en según las especificaciones de descubrimiento.

Tabla

Tabla lógica (filas y columnas) con un esquema bien definido (nombres y tipos de columnas) respaldadas por datos (o subconjunto de ellos) en un recurso administrado. Por ejemplo, un puede estar respaldada por un subconjunto de objetos de Cloud Storage en un bucket o una tabla de BigQuery en el conjunto de datos de BigQuery.

  • Las tablas como concepto de primera clase se muestran en Dataproc Metastore. Data Catalog y BigQuery (registro de metadatos). Las tablas no aparecerán de forma descendente si se detectan o se publican en la el sistema downstream. Por ejemplo, las tablas descubiertas por el usuario datos en Cloud Storage no se mostrarán a BigQuery si la publicación en BigQuery no está habilitada.
  • Detectada por el sistema de descubrimiento. El usuario no puede crearla.
  • Los nombres de las tablas se generan para que sean cortos y significativos para cada búsqueda. Los nombres contienen tres partes, [Prefix_]table root path[_Sequence number].

Zona

Un contenedor lógico de uno o más recursos de datos creados dentro de un lake. Una zona de datos se puede usar para modelar las unidades de negocios dentro de una organización (por ejemplo, ventas en comparación con las operaciones). Las zonas de datos también modelan el recorrido de los datos o la preparación para el consumo.

Zona sin procesar

Una zona de datos que contiene datos que necesitan procesamiento adicional antes de ser que se consideran listos para el consumo y las cargas de trabajo analíticas.

Zona seleccionada

Zona de datos que contiene datos que se considera que están listos para usarse cargas de trabajo de consumo y análisis. Los datos estructurados seleccionados se almacenan en Cloud Storage debe cumplir con ciertos formatos de archivo (Parquet, Avro y ORC) y se organizan en un diseño de directorio compatible con Hive.

Próximos pasos