Descripción general de Dataplex

Dataplex es un tejido de datos que unifica datos distribuidos y automatiza control y administración de datos para esos datos.

Dataplex te permite hacer lo siguiente:

  • Crear una malla de datos específica del dominio a través de los datos que se almacenan en varias proyectos de Google Cloud sin mover datos.
  • Controlar y supervisar los datos de forma coherente con un solo conjunto de permisos.
  • Descubre y selecciona metadatos en varios silos con las funciones de catálogo. Para obtener más información, consulta Descripción general del catálogo de Dataplex.
  • Consultar metadatos de forma segura con BigQuery y herramientas de código abierto, como SparkSQL, Presto y HiveQL.
  • Ejecutar tareas de administración del ciclo de vida y la calidad de los datos, incluso sin servidores Tareas de Spark.
  • Explora los datos utilizando entornos de Spark completamente administrados y sin servidores de forma sencilla acceso a notebooks y consultas en SparkSQL.

¿Por qué usar Dataplex?

Las empresas tienen datos que se distribuyen en data lakes, almacenes de datos y y los data marts. Con Dataplex, puedes hacer lo siguiente:

  • Datos descubiertos
  • Selecciona datos
  • Unifica datos sin moverlos
  • Organiza los datos según las necesidades de tu empresa
  • Administra, supervisa y controla los datos de forma centralizada

Dataplex te permite estandarizar y unificar metadatos, políticas de seguridad, administración, clasificación y administración del ciclo de vida de los datos en estos datos distribuidos.

imagen

Cómo funciona Dataplex

Dataplex administra los datos de una forma que no requiere movimientos de estos. o duplicación. A medida que identificas nuevas fuentes de datos, Dataplex recopila los metadatos de los datos estructurados y no estructurados mediante y verificaciones de calidad de los datos para mejorar su integridad.

Dataplex registra automáticamente todos los metadatos almacén de metadatos. Puedes acceder a datos y metadatos a través de varios servicios y herramientas. incluidos los siguientes:

  • servicios de Google Cloud, como BigQuery, Dataproc Metastore, Data Catalog.
  • Herramientas de código abierto, como Apache Spark y Presto

Terminología

Dataplex abstrae los sistemas subyacentes de almacenamiento de datos, con las siguientes construcciones:

  • Lago: Es una construcción lógica que representa un dominio de datos o una unidad de negocios. Para Por ejemplo, para organizar los datos según el uso grupal, puedes configurar un lake para cada departamento (por ejemplo, Comercio minorista, Ventas, Finanzas).

  • Zona: Es un subdominio dentro de un lake, que es útil para categorizar los datos por lo siguiente:

    • Etapa: Por ejemplo, datos de destino, sin procesar, seleccionados y seleccionados la ciencia.
    • Uso: Por ejemplo, contrato de datos.
    • Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios.

    Hay dos tipos de zonas: sin procesar y seleccionadas.

    • Zona sin procesar: Contiene datos en su formato sin procesar y no sujetos a una comprobación de tipo estricta.

    • Zona seleccionada: Contiene datos limpios, con formato y listos para de análisis de datos en la nube. Los datos son columnas, particionados en Hive y almacenados en Parquet, Archivos Avro, Orc o tablas de BigQuery. Los datos se someten verificación de tipos, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso a SQL.

  • Recurso: se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar como recursos los datos almacenados en proyectos de Google Cloud separados en una sola zona.

  • Entidad: Representa los metadatos de los datos estructurados y semiestructurados (tabla) y datos no estructurados (conjunto de archivos).

Casos de uso habituales

En esta sección, se describen casos de uso comunes para usar Dataplex.

Una malla de datos centrada en el dominio

Con este tipo de malla de datos, los datos se organizan en múltiples dominios dentro de Enterprise; por ejemplo, Ventas, Clientes y Productos. Propiedad de los datos puede descentralizarse. Puedes suscribirte a datos de diferentes dominios. Para ejemplo, los científicos y los analistas de datos pueden extraer de diferentes dominios a lograr objetivos comerciales como el aprendizaje automático y la inteligencia empresarial.

En el siguiente diagrama, Dataplex representa los dominios y que son propiedad de productores de datos independientes. Los productores de datos son quienes crean, selección de contenido y control de acceso en sus dominios. Luego, los consumidores de datos pueden solicitar acceso a los lakes (dominios) o a las zonas (subdominios) para sus análisis.

Crea una malla de datos

En este caso, los administradores de datos deben conservar una visión integral de todos los datos horizontal.

En este diagrama, se incluyen los siguientes elementos:

  • Dataplex: Una malla de múltiples dominios de datos.
  • Dominio: Lakes para ventas, clientes y datos de productos.
  • Zona dentro de un dominio: para equipos individuales o para proporcionar datos administrados contratos.
  • Activos: datos almacenados en un bucket de Cloud Storage o en un conjunto de datos de BigQuery, que puede existir en otro Google Cloud proyecto de tu malla de Dataplex.

Puedes ampliar esta situación desglosando los datos que se encuentran en zonas en sin procesar. y las capas seleccionadas. Puedes lograr este enfoque creando zonas para cada de un dominio y datos sin procesar o seleccionados:

  • Ventas sin procesar
  • Ventas seleccionadas
  • Clientes sin procesar
  • Clientes seleccionados
  • Productos sin procesar
  • Productos seleccionados

Establecimiento de niveles de datos según la preparación

Otro caso de uso común es cuando solo los ingenieros de datos pueden acceder a ellos y, luego, se perfecciona y pone a disposición de científicos y analistas de datos. En en este caso, puedes configurar un lake para que tenga lo siguiente:

  • Una zona sin procesar para los datos a los que pueden acceder los ingenieros.
  • Una zona seleccionada para los datos que está disponible para los científicos de datos y para los analistas de datos en la nube.

Lakes y zonas

¿Qué sigue?