¿Qué es una malla de datos?

La malla de datos es un marco arquitectónico para gestionar datos en organizaciones complejas. A diferencia de los modelos centralizados, las mallas de datos descentralizan la propiedad de los datos en equipos específicos de cada dominio. Este enfoque puede ayudar a eliminar los cuellos de botella al tratar los datos como un producto, pero también introduce nuevos requisitos de recursos. Para que una malla de datos tenga éxito, los equipos de dominio deben tener competencias específicas en ingeniería de datos y capacidades de gobernanza. Para las empresas que tienen los recursos necesarios para dar soporte a equipos distribuidos, la malla de datos puede mejorar la agilidad. Para otros, los modelos centralizados, como los almacenes de datos o los data lakes, pueden seguir siendo una solución más eficiente.

Principios fundamentales de las mallas de datos

La malla de datos no es solo un nuevo conjunto de herramientas o tecnologías, sino un cambio en la forma en que las empresas piensan sobre sus datos. Hay cuatro principios fundamentales que guían el enfoque de la malla de datos. Estos principios son los que hacen que el enfoque sea tan eficaz a la hora de resolver los problemas de las arquitecturas de datos centralizadas tradicionales.

Propiedad orientada a los dominios

En una arquitectura de datos tradicional, un único equipo central, como el de TI o el de ingeniería de datos, es responsable de todos los datos. En una malla de datos, la propiedad de los datos se distribuye entre los dominios empresariales que los crean. Por ejemplo, el equipo de Ventas sería el propietario de los datos de clientes que genera, y el equipo de Marketing, de los datos de campañas que crea. De esta forma, los equipos son más responsables de los datos que producen.

Datos como producto

Con la propiedad orientada a los dominios, los equipos que crean datos también deben tratarlos como un producto. Al igual que una empresa ofrece un producto de alta calidad a un cliente, un equipo de dominio de datos debe proporcionar datos de alta calidad a otros equipos que los necesiten. Esto significa que los datos son fáciles de descubrir, entender y usar. También debe ser fiable, seguro y estar bien documentado, con controles de acceso integrados para que solo las personas adecuadas puedan acceder a los datos destinados a su caso práctico.

Infraestructura de datos de autoservicio como plataforma

Para que el tratamiento de los datos como producto sea posible, una malla de datos utiliza una plataforma de autoservicio. Esta plataforma es un conjunto de herramientas y servicios que permite a los equipos de dominios de datos crear y gestionar fácilmente sus productos de datos sin necesidad de ayuda de un equipo de datos central. Puede ser una plataforma sencilla y fácil de usar que automatice muchas de las tareas técnicas que implica la gestión de datos, como el almacenamiento, la seguridad y la gobernanza de datos.

Gobierno computacional federado

Como los datos están descentralizados y repartidos entre muchos equipos diferentes, debe haber una forma de asegurarse de que todos siguen las mismas reglas. Aquí es donde entra en juego la gobernanza computacional federada. Es un modelo en el que un equipo central reducido establece las reglas y los estándares globales para todos los datos. Sin embargo, la aplicación de estas reglas la gestionan los propios equipos de dominio de datos. De esta forma, se combinan las ventajas de ambos enfoques: políticas centralizadas con ejecución descentralizada.

Preguntas frecuentes sobre la malla de datos

Un producto de datos en una malla de datos debe ser localizable, direccionable, fiable, autodescriptivo y seguro. Los consumidores de datos deben poder descubrir los datos fácilmente, entender qué son y saber que son de alta calidad. También debe tener reglas de acceso claras y coherentes para garantizar la seguridad.

La creación de una malla de datos es un proceso incremental. A menudo, lo mejor es empezar con un pequeño proyecto piloto y algunos equipos de dominio dispuestos a participar. Empieza por identificar un dominio empresarial que pueda beneficiarse de una mayor autonomía de los datos. Después, crea una plataforma de autoservicio mínima que permita a ese equipo crear un producto de datos. Si el proyecto tiene éxito, puedes usar los resultados como prueba de concepto para que el resto de la organización se una a la arquitectura de malla de datos.

Uno de los mayores retos es el cambio en la cultura. A un equipo de datos centralizado le puede costar ceder el control. También hay retos técnicos, como garantizar la seguridad de los datos y gestionar un sistema distribuido. Sin embargo, con una planificación cuidadosa y una estrategia de comunicación clara, estos retos se pueden superar.

La malla de datos está diseñada para funcionar con los sistemas de datos que ya tengas. No es necesario que deseches tus data lakes o almacenes de datos actuales. En cambio, se puede implementar sobre ellos. Una malla de datos puede actuar como una nueva capa que proporciona una forma unificada y de autoservicio para que los equipos accedan a datos de diferentes fuentes.

Un error común es pensar que la malla de datos es un producto que se puede comprar. Pero no es así. Es una nueva forma de organizar y gestionar datos. Otro mito es que solo está pensada para grandes empresas. Aunque es más común en las grandes empresas, los principios también se pueden aplicar a organizaciones más pequeñas.

Cuantificar el éxito de una malla de datos puede ser complicado, ya que los beneficios no suelen ser financieros al principio. En su lugar, puedes medir el éxito fijándote en aspectos como la velocidad de entrega de los datos, el número de equipos que usan la plataforma de datos y la confianza que tienen los equipos en los datos que consumen. Con el tiempo, estas mejoras pueden dar lugar a mejores resultados empresariales y a un mayor retorno de la inversión (ROI).

Malla de datos frente a arquitecturas de datos tradicionales

El enfoque de malla de datos se creó para resolver algunos de los problemas habituales de las arquitecturas de datos tradicionales. Estos modelos, como los almacenes de datos o los data lakes propiedad de departamentos o equipos individuales, pueden crear silos de datos y riesgos de gobernanza, especialmente a medida que una empresa crece. La malla de datos aborda estos problemas distribuyendo la propiedad y capacitando a los equipos individuales, al tiempo que mantiene los controles centrales para gobernar y monitorizar los datos en todos los dominios.

Función

Mallas de datos

Arquitecturas tradicionales

Modelo arquitectónico

Descentralizada y distribuida en todos los dominios empresariales.

Centralizada y monolítica, gestionada por un único equipo.

Propiedad de los datos

Los datos pertenecen a los equipos de dominio que los crean y utilizan.

Los datos son propiedad de un equipo de datos centralizado, que también los gestiona.

Acceso a los datos

Los equipos acceden a los datos a través de productos de datos estandarizados.

Los equipos deben recurrir a un equipo central para obtener datos.

Escalabilidad

Se puede escalar fácilmente a medida que se añaden nuevos equipos de dominio y productos de datos.

Puede convertirse en un cuello de botella a medida que crecen la organización y el volumen de datos.

Calidad de los datos

Los equipos de dominio son responsables de la calidad de sus propios datos, lo que puede aumentar la confianza y la precisión.

La calidad de los datos puede ser inconsistente, ya que el equipo central puede carecer del contexto de cada dominio.

Gobierno de datos

La gobernanza es federada, con estándares y reglas globales establecidos centralmente pero aplicados por equipos de dominio.

La gobernanza está centralizada y la gestiona un único equipo.

Caso práctico

Puede ser la mejor opción para organizaciones grandes y complejas con datos diversos y unidades de negocio independientes.

Puede ser la mejor opción para organizaciones pequeñas o para casos de uso específicos que requieren una única fuente de información veraz.

Conocimientos técnicos o recursos necesarios

Se requieren competencias técnicas distribuidas (ingeniería, gobernanza) en cada equipo de dominio.

Centraliza la experiencia técnica en un equipo central de TI o ingeniería de datos.

Función

Mallas de datos

Arquitecturas tradicionales

Modelo arquitectónico

Descentralizada y distribuida en todos los dominios empresariales.

Centralizada y monolítica, gestionada por un único equipo.

Propiedad de los datos

Los datos pertenecen a los equipos de dominio que los crean y utilizan.

Los datos son propiedad de un equipo de datos centralizado, que también los gestiona.

Acceso a los datos

Los equipos acceden a los datos a través de productos de datos estandarizados.

Los equipos deben recurrir a un equipo central para obtener datos.

Escalabilidad

Se puede escalar fácilmente a medida que se añaden nuevos equipos de dominio y productos de datos.

Puede convertirse en un cuello de botella a medida que crecen la organización y el volumen de datos.

Calidad de los datos

Los equipos de dominio son responsables de la calidad de sus propios datos, lo que puede aumentar la confianza y la precisión.

La calidad de los datos puede ser inconsistente, ya que el equipo central puede carecer del contexto de cada dominio.

Gobierno de datos

La gobernanza es federada, con estándares y reglas globales establecidos centralmente pero aplicados por equipos de dominio.

La gobernanza está centralizada y la gestiona un único equipo.

Caso práctico

Puede ser la mejor opción para organizaciones grandes y complejas con datos diversos y unidades de negocio independientes.

Puede ser la mejor opción para organizaciones pequeñas o para casos de uso específicos que requieren una única fuente de información veraz.

Conocimientos técnicos o recursos necesarios

Se requieren competencias técnicas distribuidas (ingeniería, gobernanza) en cada equipo de dominio.

Centraliza la experiencia técnica en un equipo central de TI o ingeniería de datos.

Casos prácticos con malla de datos

El enfoque de malla de datos puede resultar especialmente útil para organizaciones grandes y complejas que cuentan con múltiples unidades de negocio y un gran volumen de datos. Aquí tienes algunos casos de uso comunes en los que una malla de datos puede aportar un valor significativo.

Una malla de datos puede ayudar a una organización a obtener más valor de su análisis de datos e iniciativas de inteligencia empresarial (BI). Con productos de datos de diferentes dominios, los científicos y analistas de datos pueden obtener una visión más completa del negocio. Por ejemplo, una empresa de retail puede combinar los datos de clientes de su dominio de ventas con los datos de tráfico web de su dominio de marketing para comprender mejor el comportamiento de los clientes.

Una iniciativa de visión 360 del cliente tiene como objetivo crear una visión completa del cliente combinando datos de diferentes fuentes. Esto puede resultar problemático en una arquitectura de datos centralizada, ya que los datos suelen estar aislados en diferentes departamentos. Una malla de datos facilita mucho esto al proporcionar una forma estandarizada de acceder y combinar productos de datos de diferentes dominios, como ventas, marketing y soporte.

En los servicios financieros, una malla de datos se puede usar para la monitorización en tiempo real y la detección de fraudes. Por ejemplo, un banco podría tener un producto de datos para las transacciones y otro para los datos de inicio de sesión de los clientes. Un sistema de detección de fraude puede entonces acceder a ambos conjuntos de datos para identificar actividades sospechosas. La naturaleza descentralizada de una malla de datos puede ayudar a conseguir la velocidad y la fiabilidad que necesitan este tipo de aplicaciones.

A medida que las normativas sobre la privacidad de los datos se vuelven más complejas, puede resultar difícil garantizar el cumplimiento en un modelo de datos centralizado. Una malla de datos puede ayudar a cumplir las normativas, ya que permite a los equipos de dominio gestionar sus propios productos de datos y asegurarse de que cumplen las leyes locales. Esto es particularmente importante para las empresas multinacionales que necesitan cumplir con diferentes normas de la soberanía de los datos en diferentes países.

Las aplicaciones y agentes avanzados de IA requieren datos de alta calidad y ricos en contexto para funcionar de manera efectiva. En una malla de datos, los equipos de dominio seleccionan datos específicamente para su consumo, asegurando que estén limpios, etiquetados y documentados. Esto permite a los científicos de datos entrenar modelos con datos de entrada fiables sin dedicar demasiado tiempo a la preparación de datos. Además, agentes de IA pueden acceder a estos productos de datos modulares a través de API para obtener información en tiempo real, lo que les permite realizar tareas complejas en diferentes ámbitos empresariales con mayor precisión.

Ventajas de adoptar una malla de datos

Adoptar una malla de datos puede aportar ventajas significativas a una organización. Al adoptar un modelo descentralizado, las empresas pueden superar los cuellos de botella de las arquitecturas tradicionales y conseguir mejores resultados empresariales.


Agilidad y escalabilidad

Una malla de datos puede ser más ágil. Cada dominio de datos puede funcionar de forma independiente, lo que permite a la organización escalar y evolucionar más rápidamente. Puede facilitar la incorporación de nuevos productos y servicios de datos sin causar interrupciones.

Calidad y fiabilidad de los datos

Una malla de datos puede asignar responsabilidades a los equipos de dominio que producen los datos. Como los equipos de dominio también son los principales consumidores de sus propios datos, tienen un gran incentivo para garantizar su calidad. Esto puede conducir a datos más fiables.

Rentabilidad

Una malla de datos también puede ayudar a una empresa a ser más eficiente en costes. Con una plataforma de datos centralizada, los equipos a menudo tienen que esperar a que un equipo de datos central les ayude con sus necesidades de datos. Esto puede provocar retrasos y un desperdicio de recursos.

Establecer un tejido de datos unificado y un gobierno centralizado

Dataplex Universal Catalog actúa como un tejido de datos unificado y proporciona una capa de gobernanza central sobre su malla de datos. Puede ayudarle a descubrir, gestionar y gobernar sus datos distribuidos en diversos entornos, garantizando que disponga de una única fuente de información veraz para los metadatos y las políticas. Para empezar, necesitarás crear un lago de Dataplex. Un lago de Dataplex es un contenedor de nivel superior que almacena tus datos y que suele asignarse a un dominio empresarial.

Aquí están los pasos para crear un lago:

  1. En la consola de Google Cloud, navega a la página Lagos de Dataplex Universal Catalog.
  2. Después de hacer clic en "Crear", ponle un nombre descriptivo a tu nuevo lago de datos, como "Dominio de datos de ventas" o "Malla de datos de marketing".
  3. Elige una región para el lago.
  4. Una vez creado el lago, puedes añadir zonas. Una zona es un subdominio dentro de su lago que representa un equipo específico o un contrato de datos. Por ejemplo, en el data lake "Sales Data Domain", puedes crear una zona "Raw" para los datos sin procesar y una zona "Curated" para los datos limpios y listos para la producción.
  5. Después de crear las zonas, puede adjuntar recursos. Un activo es el dato real almacenado en un servicio como Cloud Storage o BigQuery. Simplemente debes indicar a la zona de Dataplex la ubicación de tus datos.

A continuación, Dataplex analiza automáticamente esos recursos para descubrir y catalogar los metadatos.

Agiliza el descubrimiento mediante un mercado de productos de datos

Una parte fundamental del principio de "datos como producto" es hacer que los datos sean fáciles de descubrir. Los datos compartidos de BigQuery te permite crear un mercado de productos de datos. Esto permite a los equipos de dominio compartir de forma segura productos de datos con otros equipos sin copiar ni mover los datos. Puede ayudar a los consumidores de datos a encontrar los datos que necesitan y les proporciona una interfaz clara y bien definida para acceder a ellos.

Crea y comparte productos de datos en una plataforma sin servidor

Los servicios sin servidor de Google Cloud permiten a los equipos de dominio crear y gestionar sus propios productos de datos con una sobrecarga mínima. BigQuery es un potente almacén de datos sin servidor que permite a los equipos analizar grandes conjuntos de datos de forma rápida y eficiente. Dataflow es un servicio de procesamiento de datos sin servidor que se puede utilizar para crear y automatizar canalizaciones de datos para productos de datos. Estos servicios reducen la necesidad de un equipo central de ingeniería de datos para gestionar la infraestructura, lo que hace que los equipos de dominio sean más autónomos y ágiles.

Cumple las normativas con el control de acceso basado en atributos

La gobernanza computacional federada se basa en el principio de que un equipo central defina las reglas globales, pero permitiendo que los equipos de dominio las hagan cumplir. Las condiciones de gestión de identidad y acceso (IAM) de Google Cloud proporcionan las herramientas para implementar esto. Las condiciones IAM permiten el control de acceso basado en atributos (ABAC), donde se pueden configurar permisos detallados basados en atributos de datos. Por ejemplo, puedes crear una política que solo permita a un usuario acceder a los datos de clientes de su región específica, lo que ayuda a garantizar el cumplimiento de las normativas de soberanía de los datos como el RGPD.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

Google Cloud