Descripción general de Dataplex

Dataplex es un tejido de datos que unifica datos distribuidos y automatiza control y administración de datos para esos datos.

Dataplex te permite hacer lo siguiente:

  • Compila una malla de datos específica del dominio en los datos almacenados en varios proyectos de Google Cloud sin la necesidad de mover datos.
  • Controlar y supervisar los datos de forma coherente con un solo conjunto de permisos.
  • Descubre y selecciona metadatos en varios silos con las funciones de catálogo. Para obtener más información, consulta Descripción general del catálogo de Dataplex.
  • Consultar metadatos de forma segura con BigQuery y herramientas de código abierto, como SparkSQL, Presto y HiveQL.
  • Ejecutar tareas de administración del ciclo de vida y la calidad de los datos, incluidas las tareas sin servidores de Spark
  • (Obsoleto) Explorar datos con herramientas entornos de Spark sin servidores con una acceso a notebooks y consultas en SparkSQL.

¿Por qué usar Dataplex?

Las empresas tienen datos distribuidos en data lakes, almacenes de datos y data marts. Con Dataplex, puedes hacer lo siguiente:

  • Datos descubiertos
  • Selecciona datos
  • Unifica los datos sin moverlos
  • Organiza los datos según las necesidades de tu empresa
  • Administra, supervisa y controla datos de forma centralizada

Dataplex te permite estandarizar y unificar los metadatos, las políticas de seguridad, la administración, la clasificación y la administración del ciclo de vida de los datos en estos datos distribuidos.

imagen

Cómo funciona Dataplex

Dataplex administra los datos de un modo que no requiere movimientos ni duplicación de datos. A medida que identificas nuevas fuentes de datos, Dataplex recopila los metadatos de los datos estructurados y no estructurados mediante y verificaciones de calidad de los datos para mejorar su integridad.

Dataplex registra automáticamente todos los metadatos en un almacén de metadatos unificado. Puedes acceder a datos y metadatos a través de varios servicios y herramientas. incluidos los siguientes:

  • Servicios de Google Cloud, como BigQuery, Dataproc Metastore y Data Catalog
  • Herramientas de código abierto, como Apache Spark y Presto

Terminología

Dataplex abstrae los sistemas de almacenamiento de datos subyacentes con las siguientes construcciones:

  • Lago: Es una construcción lógica que representa un dominio de datos o una unidad de negocios. Para Por ejemplo, para organizar los datos según el uso grupal, puedes configurar un lake para cada (por ejemplo, Venta minorista, Ventas o Finanzas).

  • Zona: Es un subdominio dentro de un lake que es útil para categorizar los datos según lo siguiente:

    • Etapa: Por ejemplo, análisis de datos sin procesar, seleccionados y de aterrizaje, y ciencia de datos seleccionados.
    • Uso: Por ejemplo, contrato de datos.
    • Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios.

    Hay dos tipos de zonas: sin procesar y seleccionadas.

    • Zona sin procesar: contiene datos en su formato sin procesar y no sujetos a una comprobación de tipo estricta.

    • Zona seleccionada: Contiene datos limpios, con formato y listos para de análisis de datos en la nube. Los datos son de tipo columna, están particionados por Hive y se almacenan en archivos Parquet, Avro, ORC o tablas de BigQuery. Los datos se someten a una verificación de tipo, por ejemplo, para prohibir el uso de archivos CSV porque no tienen un buen rendimiento para el acceso a SQL.

  • Recurso: se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar como recursos los datos almacenados en proyectos de Google Cloud separados en una sola zona.

  • Entidad: Representa los metadatos de los datos estructurados y semiestructurados (tabla) y datos no estructurados (conjunto de archivos).

Casos de uso habituales

En esta sección, se describen casos de uso comunes de Dataplex.

Una malla de datos centrada en el dominio

Con este tipo de malla de datos, los datos se organizan en varios dominios dentro de una empresa, por ejemplo, Ventas, Clientes y Productos. La propiedad de los datos puede ser descentralizada. Puedes suscribirte a datos de diferentes dominios. Por ejemplo, los científicos y analistas de datos pueden extraer información de diferentes dominios para lograr objetivos comerciales, como el aprendizaje automático y la inteligencia empresarial.

En el siguiente diagrama, Dataplex representa los dominios y que son propiedad de productores de datos independientes. Los productores de datos son quienes crean, la selección de contenido y el control de acceso en sus dominios. Luego, los consumidores de datos pueden solicitar acceso a los lakes (dominios) o a las zonas (subdominios) para sus análisis.

Crea una malla de datos

En este caso, los administradores de datos deben mantener una vista holística de todo el panorama de datos.

En este diagrama, se incluyen los siguientes elementos:

  • Dataplex: Una malla de múltiples dominios de datos.
  • Dominio: Lagos para datos de ventas, clientes y productos.
  • Zona dentro de un dominio: Para equipos individuales o para proporcionar contratos de datos administrados.
  • Recursos: Datos almacenados en un bucket de Cloud Storage o un conjunto de datos de BigQuery, que pueden existir en un proyecto de Google Cloud independiente de tu malla de Dataplex.

Puedes ampliar esta situación desglosando los datos que se encuentran en zonas en sin procesar. y las capas seleccionadas. Para lograr este enfoque, crea zonas para cada variación de un dominio y datos sin procesar o seleccionados:

  • Ventas sin procesar
  • Ventas seleccionadas
  • Clientes sin procesar
  • Clientes seleccionados
  • Productos sin procesar
  • Productos seleccionados

Establecimiento de niveles de datos según la preparación

Otro caso de uso común es cuando solo los ingenieros de datos pueden acceder a ellos y, luego, se perfecciona y se pone a disposición de científicos y analistas de datos. En este caso, puedes configurar un lake para que tenga lo siguiente:

  • Una zona sin procesar para los datos a los que pueden acceder los ingenieros.
  • Una zona seleccionada para los datos que está disponible para los científicos de datos y para los analistas de datos en la nube.

Lakes y zonas

¿Qué sigue?