Una malla de datos es un framework de arquitectura para administrar datos en organizaciones complejas. A diferencia de los modelos centralizados, la malla de datos descentraliza la propiedad de los datos en equipos específicos del dominio. Este enfoque puede ayudar a eliminar los cuellos de botella tratando los datos como un producto, pero también introduce nuevos requisitos de recursos. El éxito de una malla de datos depende de que los equipos de dominio posean habilidades específicas de ingeniería de datos y capacidades de administración. Para las organizaciones que tienen los recursos para respaldar equipos distribuidos, la malla de datos puede mejorar la agilidad. Para otros, los modelos centralizados como los almacenes de datos o los data lakes pueden seguir siendo una solución más eficiente.
La malla de datos no se trata solo de un nuevo conjunto de herramientas o tecnologías, sino de un cambio en la forma en que las empresas piensan sobre sus datos. Hay cuatro principios fundamentales que guían el enfoque de data mesh. Estos principios son lo que hace que el enfoque sea tan eficaz para resolver los problemas de las arquitecturas de datos tradicionales y centralizadas.
En una arquitectura de datos tradicional, un único equipo central, como un equipo de TI o de ingeniería de datos, es responsable de todos los datos. En una malla de datos, la propiedad de los datos se distribuye entre los dominios empresariales que los crean. Por ejemplo, un equipo de ventas sería propietario de los datos de clientes que genera, y un equipo de marketing sería propietario de los datos de campañas que crea. Esto hace que los equipos sean más responsables de los datos que producen.
Con la propiedad orientada al dominio, los equipos que crean datos también deben tratarlos como un producto. Así como una empresa proporcionaría un producto de alta calidad a un cliente, un equipo de dominio de datos debe proporcionar datos de alta calidad a otros equipos que los necesiten. Esto significa que los datos son fáciles de descubrir, comprender y usar. También debe ser confiable, seguro y estar bien documentado con controles de acceso integrados para que solo las personas adecuadas accedan a los datos destinados a su caso de uso.
Para que sea posible tratar los datos como un producto, una malla de datos utiliza una plataforma de autoservicio. Esta plataforma es un conjunto de herramientas y servicios que permite a los equipos de dominio de datos crear y gestionar fácilmente sus productos de datos sin necesidad de ayuda de un equipo de datos central. Puede tratarse de una plataforma sencilla y fácil de usar que automatiza muchas de las tareas técnicas relacionadas con la gestión de datos, como el almacenamiento, la seguridad y la gobernanza de los mismos.
Como los datos están descentralizados y distribuidos en muchos equipos diferentes, debe haber una forma de garantizar que todos sigan las mismas reglas. Aquí es donde entra en juego la administración computacional federada. Es un modelo en el que un pequeño equipo central establece las reglas y estándares globales para todos los datos. Sin embargo, la aplicación de estas reglas es manejada por los propios equipos de dominio de datos. Esto combina lo mejor de ambos mundos: políticas centralizadas con ejecución descentralizada.
Un producto de datos en una malla de datos debe ser fácil de encontrar, direccionable, confiable, autodescriptivo y seguro. Para los consumidores de datos debería ser fácil descubrir los datos, comprender qué son y saber que son de alta calidad. También debe tener reglas de acceso claras y coherentes para garantizar la seguridad.
Comenzar una malla de datos es un proceso incremental. A menudo, lo mejor es comenzar con un pequeño proyecto piloto y algunos equipos de dominio dispuestos. Comienza por identificar un dominio empresarial que pueda beneficiarse de una mayor autonomía de los datos. Luego, crea una plataforma de autoservicio mínima que permita a ese equipo crear un producto de datos. A medida que el proyecto tenga éxito, puedes usar los resultados como prueba de concepto para que toda la organización adopte la arquitectura de malla de datos.
Uno de los mayores desafíos es el cambio cultural. Puede ser difícil para un equipo de datos centralizado renunciar al control. También hay desafíos técnicos, como garantizar la seguridad de los datos y administrar un sistema distribuido. Sin embargo, con una planificación cuidadosa y una estrategia de comunicación clara, estos desafíos se pueden superar.
La malla de datos está diseñada para funcionar con sistemas de datos existentes. No es necesario que descartes tus data lakes o almacenes de datos actuales. En cambio, se puede implementar sobre ellos. Una malla de datos puede actuar como una nueva capa que proporciona una forma unificada y de autoservicio para que los equipos accedan a los datos de diferentes fuentes.
Un concepto erróneo común es que la malla de datos es un producto que se puede comprar. Pero no es así. Es una nueva forma de organizar y administrar datos. Otro mito es que solo es para grandes empresas. Si bien es más común en las grandes empresas, los principios también se pueden aplicar a organizaciones más pequeñas.
Medir el éxito de una malla de datos puede ser complicado porque, al principio, los beneficios no suelen ser financieros. En cambio, puedes medir el éxito analizando aspectos como la velocidad de entrega de datos, la cantidad de equipos que usan la plataforma de datos y la confianza que tienen los equipos en los datos que consumen. Con el tiempo, estas mejoras pueden generar mejores resultados comerciales y un mayor retorno de la inversión (ROI).
El enfoque de malla de datos se creó para resolver algunos de los problemas comunes de las arquitecturas de datos tradicionales. Estos modelos, como los almacenes de datos o los data lakes que pertenecen a departamentos o equipos individuales, pueden crear silos de datos y riesgos de administración, especialmente a medida que crece una empresa. La malla de datos aborda estos problemas distribuyendo la propiedad y potenciando a los equipos individuales, mientras que mantiene los controles centrales para gobernar y supervisar los datos en todos los dominios.
Función | Malla de datos | Arquitecturas tradicionales |
Modelo arquitectónico | Descentralizado y distribuido en dominios empresariales | Centralizado y monolítico, administrado por un solo equipo. |
Propiedad de los datos | Los datos son propiedad de los equipos de dominio que los crean y usan. | Los datos son propiedad de un equipo central de datos y este los administra. |
Acceso a los datos | Los equipos acceden a los datos a través de productos de datos estandarizados. | Los equipos deben pasar por un equipo central para obtener datos. |
Escalabilidad | Puede escalar fácilmente a medida que se agregan nuevos equipos de dominio y productos de datos. | Puede convertirse en un cuello de botella a medida que crecen la organización y el volumen de datos. |
Calidad de los datos | Los equipos de dominio son responsables de su propia calidad de datos, lo que puede aumentar la confianza y la exactitud. | La calidad de los datos puede ser inconsistente, ya que el equipo central puede carecer del contexto de cada dominio. |
Administración de datos | La administración es federada, con estándares y reglas globales establecidos de forma centralizada, pero aplicados por equipos de dominio. | La administración es centralizada y está a cargo de un solo equipo. |
Caso práctico | Puede ser la mejor opción para organizaciones grandes y complejas con datos diversos y unidades de negocio independientes. | Puede ser la mejor opción para organizaciones más pequeñas o para casos de uso específicos que requieren una única fuente de información. |
Se necesitan recursos y experiencia técnica | Requiere habilidades técnicas distribuidas (ingeniería, administración) dentro de cada equipo de dominio. | Centraliza la experiencia técnica en un equipo central de TI o ingeniería de datos. |
Malla de datos
Arquitecturas tradicionales
Modelo arquitectónico
Descentralizado y distribuido en dominios empresariales
Centralizado y monolítico, administrado por un solo equipo.
Propiedad de los datos
Los datos son propiedad de los equipos de dominio que los crean y usan.
Los datos son propiedad de un equipo central de datos y este los administra.
Acceso a los datos
Los equipos acceden a los datos a través de productos de datos estandarizados.
Los equipos deben pasar por un equipo central para obtener datos.
Escalabilidad
Puede escalar fácilmente a medida que se agregan nuevos equipos de dominio y productos de datos.
Puede convertirse en un cuello de botella a medida que crecen la organización y el volumen de datos.
Calidad de los datos
Los equipos de dominio son responsables de su propia calidad de datos, lo que puede aumentar la confianza y la exactitud.
La calidad de los datos puede ser inconsistente, ya que el equipo central puede carecer del contexto de cada dominio.
Administración de datos
La administración es federada, con estándares y reglas globales establecidos de forma centralizada, pero aplicados por equipos de dominio.
La administración es centralizada y está a cargo de un solo equipo.
Caso práctico
Puede ser la mejor opción para organizaciones grandes y complejas con datos diversos y unidades de negocio independientes.
Puede ser la mejor opción para organizaciones más pequeñas o para casos de uso específicos que requieren una única fuente de información.
Se necesitan recursos y experiencia técnica
Requiere habilidades técnicas distribuidas (ingeniería, administración) dentro de cada equipo de dominio.
Centraliza la experiencia técnica en un equipo central de TI o ingeniería de datos.
El enfoque de malla de datos puede resultar especialmente útil para organizaciones grandes y complejas que cuentan con múltiples unidades de negocio y un gran volumen de datos. Estos son algunos casos de uso comunes en los que una malla de datos puede proporcionar un valor significativo.
Una malla de datos puede ayudar a una organización a obtener más valor de su análisis de datos yinteligencia empresarial (BI) iniciativas. Con productos de datos de diferentes dominios, los científicos y analistas de datos pueden obtener una visión más completa del negocio. Por ejemplo, una empresa minorista puede combinar los datos de clientes de su dominio de ventas con los datos de tráfico web de su dominio de marketing para comprender mejor el comportamiento del cliente.
Una iniciativa de visión 360 del cliente tiene como objetivo crear una visión completa del cliente combinando datos de diferentes fuentes. Esto puede resultar problemático en una arquitectura de datos centralizada, ya que los datos suelen estar aislados en diferentes departamentos. Una malla de datos facilita mucho esto, ya que proporciona una forma estandarizada de acceder a los productos de datos y combinarlos desde diferentes dominios, como ventas, marketing y asistencia.
En los servicios financieros, una malla de datos puede usarse para la supervisión en tiempo real y la detección de fraude. Un banco, por ejemplo, podría tener un producto de datos para transacciones y otro para datos de inicio de sesión de clientes. Un sistema de detección de fraude puede entonces acceder a ambos conjuntos de datos para identificar actividades sospechosas. La naturaleza descentralizada de una malla de datos puede ayudar con la velocidad y la confiabilidad necesarias para este tipo de aplicaciones.
A medida que las normativas sobre privacidad de datos se vuelven más complejas, puede resultar difícil garantizar el cumplimiento en un modelo de datos centralizado. Una malla de datos puede ayudar con el cumplimiento normativo al permitir que los equipos de dominio gestionen sus propios productos de datos y garanticen que cumplen con las leyes locales. Esto es particularmente importante para las empresas multinacionales que necesitan cumplir con diferentes normas de soberanía de datos en diferentes países.
Las aplicaciones de IA y los agentes avanzados requieren datos de alta calidad y con mucho contexto para funcionar de manera eficaz. En una malla de datos, los equipos de dominio seleccionan datos específicamente para el consumo, lo que garantiza que estén limpios, etiquetados y documentados. Esto permite a los científicos de datos entrenar modelos con entradas confiables sin dedicar demasiado tiempo a la preparación de los datos. Además, los agentes de IA pueden acceder a estos productos de datos modulares a través de APIs para recuperar información en tiempo real, lo que les permite realizar tareas complejas en diferentes dominios empresariales con mayor precisión.
Adoptar una malla de datos puede proporcionar beneficios significativos para una organización. Con el cambio a un modelo descentralizado, las empresas pueden superar los cuellos de botella de las arquitecturas tradicionales y lograr mejores resultados comerciales.
Agilidad y escalabilidad
Una malla de datos puede ser más ágil. Cada dominio de datos puede funcionar de forma independiente, lo que permite que la organización escale y evolucione más rápido. Puede facilitar la adición de nuevos productos y servicios de datos sin causar interrupciones.
Calidad y confianza de los datos
Una malla de datos puede asignar responsabilidad a los equipos de dominio que producen los datos. Dado que los equipos de dominio son también los principales consumidores de sus propios datos, tienen un fuerte incentivo para garantizar su calidad. Esto puede conducir a datos más fiables.
Rentabilidad
Una malla de datos también puede ayudar a una empresa a ser más rentable. Con una plataforma de datos centralizada, los equipos suelen tener que esperar a que un equipo de datos central los ayude con sus necesidades de datos. Esto puede generar retrasos y desperdicio de recursos.
Dataplex Universal Catalog actúa como una estructura de datos unificada y proporciona una capa de gobernanza central sobre su malla de datos. Puede ayudarte a descubrir, administrar y controlar tus datos distribuidos en varios entornos, lo que garantiza que tengas una única fuente de información para metadatos y políticas. Para empezar, necesitarás crear un lago Dataplex. Un lago Dataplex es un contenedor de nivel superior que almacena sus datos y que normalmente está vinculado a un dominio empresarial.
Aquí están los pasos para crear un lago:
Luego, Dataplex analiza automáticamente estos recursos para descubrir y catalogar metadatos.
Una parte clave del principio de "datos como producto" es hacer que los datos sean fáciles de descubrir. El uso compartido de datos de BigQuery te permite crear un mercado de productos de datos. Esto permite que los equipos de dominio compartan de forma segura productos de datos con otros equipos sin copiar ni mover los datos. Puede ayudar a los consumidores de datos a encontrar los datos que necesitan y les proporciona una interfaz clara y bien definida para acceder a ellos.
Los servicios sin servidores de Google Cloud permiten a los equipos de dominio crear y administrar sus propios productos de datos con una sobrecarga mínima. BigQuery es un potente almacén de datos sin servidor que permite a los equipos analizar grandes conjuntos de datos de forma rápida y eficiente. Dataflow es un servicio de procesamiento de datos sin servidor que se puede utilizar para crear y automatizar canalizaciones de datos para productos de datos. Estos servicios reducen la necesidad de un equipo central de ingeniería de datos para gestionar la infraestructura, lo que hace que los equipos de dominio sean más autónomos y ágiles.
La administración federada de la computación es el principio de que un equipo central defina reglas globales, pero permita que los equipos de dominio las apliquen. Las condiciones de Identity and Access Management (IAM) de Google Cloud proporcionan las herramientas para implementar esto. Las condiciones de IAM permiten el control de acceso basado en atributos (ABAC), en el que puedes configurar permisos detallados basados en atributos de datos. Por ejemplo, puedes crear una política que solo permita que un usuario acceda a los datos del cliente desde su región específica, lo que ayuda a garantizar el cumplimiento de las reglamentaciones de soberanía de los datos como el RGPD.
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.