Descripción general de Dataplex

Dataplex es un tejido de datos que unifica los datos distribuidos y automatiza la administración de datos para ellos.

Dataplex te permite hacer lo siguiente:

  • Crea una malla de datos específica del dominio en los datos almacenados en varios proyectos de Google Cloud, sin mover los datos.
  • Controlar y supervisar los datos de forma coherente con un solo conjunto de permisos.
  • Descubre y selecciona metadatos en varios entornos aislados con funciones de catálogo. Para obtener más información, consulta la Descripción general de Data Catalog.
  • Consulta metadatos de forma segura mediante BigQuery y herramientas de código abierto, como SparkSQL, Presto y HiveQL.
  • Ejecutar tareas de administración de calidad y ciclo de vida de los datos, incluidas las tareas de Spark sin servidores
  • Explora los datos mediante entornos de Spark completamente administrados y sin servidores con acceso simple a notebooks y consultas de SparkSQL.

¿Por qué usar Dataplex?

Las empresas tienen datos que se distribuyen entre data lakes, almacenes de datos y data marts. Con Dataplex, puede hacer lo siguiente:

  • Datos descubiertos
  • Seleccionar datos
  • Unifica los datos sin moverlos.
  • Organiza los datos según las necesidades de tu empresa
  • Administra, supervisa y controla los datos de forma centralizada

Dataplex te permite estandarizar y unificar metadatos, políticas de seguridad, administración, clasificación y administración del ciclo de vida de los datos en estos datos distribuidos.

imagen

Cómo funciona Dataplex

Dataplex administra los datos de una manera que no requiere movimiento ni duplicación de datos. A medida que identificas fuentes de datos nuevas, Dataplex recolecta los metadatos de los datos estructurados y no estructurados mediante verificaciones de calidad de los datos integradas para mejorar la integridad.

Dataplex registra automáticamente todos los metadatos en un almacén de metadatos unificado. Puedes acceder a datos y metadatos a través de varios servicios y herramientas, incluidos los siguientes:

  • Servicios de Google Cloud, como BigQuery, Dataproc Metastore y Data Catalog.
  • Herramientas de código abierto, como Apache Spark y Presto

Terminología

Dataplex abstrae los sistemas de almacenamiento de datos subyacentes mediante el uso de las siguientes construcciones:

  • Lago: Es una construcción lógica que representa un dominio de datos o una unidad de negocios. Por ejemplo, para organizar los datos según el uso del grupo, puedes configurar un lake para cada departamento (por ejemplo, venta minorista, ventas o finanzas).

  • Zona: Es un subdominio dentro de un lake, que es útil para categorizar los datos de la siguiente manera:

    • Etapa: Por ejemplo, destino, sin procesar, estadísticas de datos seleccionadas y ciencia de datos seleccionadas.
    • Uso: Por ejemplo, contrato de datos.
    • Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios.

    Las zonas son de dos tipos: sin procesar y seleccionadas.

    • Zona sin procesar: Contiene datos que están en su formato sin procesar y no están sujetos a una verificación de tipo estricta.

    • Zona seleccionada: Contiene datos que están limpios, tienen formato y están listos para las estadísticas. Los datos son en columnas, están particionados en Hive y se almacenan en archivos Orc, Parquet, Avro o tablas de BigQuery. Los datos se someten a verificación de tipo, por ejemplo, para prohibir el uso de archivos CSV porque su rendimiento no es tan bueno para el acceso a SQL.

  • Recurso: Se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar los datos almacenados en diferentes proyectos de Google Cloud como elementos a una sola zona.

  • Entidad (Entity): Representa los metadatos de los datos estructurados y semiestructurados (tabla) y los datos no estructurados (conjunto de archivos).

Casos de uso habituales

En esta sección, se describen casos de uso comunes para usar Dataplex.

Una malla de datos centrada en el dominio

Con este tipo de malla de datos, los datos se organizan en varios dominios dentro de una empresa, por ejemplo, ventas, clientes y productos. La propiedad de los datos puede descentralizarse. Puedes suscribirte a datos de diferentes dominios. Por ejemplo, los científicos y analistas de datos pueden extraer datos de diferentes dominios para lograr objetivos comerciales como la inteligencia empresarial y el aprendizaje automático.

En el siguiente diagrama, los dominios están representados por lagos de Dataplex y son propiedad de productores de datos independientes. Los productores de datos son propietarios de la creación, la selección y el control de acceso en sus dominios. Luego, los consumidores de datos pueden solicitar acceso a los lakes (dominios) o zonas (subdominios) para su análisis.

Crea una malla de datos

En este caso, los administradores de datos deben conservar una vista integral de todo el panorama de datos.

Este diagrama incluye los siguientes elementos:

  • Dataplex: Una malla de varios dominios de datos.
  • Dominio: data lakes para ventas, clientes y datos de productos.
  • Zona dentro de un dominio: para equipos individuales o para proporcionar contratos de datos administrados.
  • Recursos: Datos almacenados en un bucket de Cloud Storage o en un conjunto de datos de BigQuery, que pueden existir en un proyecto de Google Cloud independiente de tu malla de Dataplex.

Para ampliar esta situación, desglosa los datos que se encuentran dentro de las zonas en capas sin procesar y seleccionadas. A fin de lograr este enfoque, puedes crear zonas para cada permutación de un dominio y datos sin procesar o seleccionados:

  • Ventas sin procesar
  • Ventas seleccionadas
  • Clientes sin procesar
  • Clientes seleccionados
  • Productos sin procesar
  • Productos seleccionados

Niveles de datos basados en la preparación

Otro caso de uso común es cuando solo los ingenieros de datos pueden acceder a los datos, los cuales luego se perfeccionan y se ponen a disposición de científicos y analistas de datos. En este caso, puedes configurar un lake para que tenga lo siguiente:

  • Una zona sin procesar para los datos a los que pueden acceder los ingenieros.
  • Una zona seleccionada para los datos que están disponibles para los científicos y analistas de datos.

Lakes y zonas

¿Qué sigue?