Arquitectura y funciones en una malla de datos

Last reviewed 2024-09-03 UTC

Una malla de datos es un framework de arquitectura y organización que trata los datos como un producto (al que se hace referencia en este documento como productos de datoss). En este framework, los equipos de información que comprenden mejor esos datos y desarrollan un conjunto de estándares de administración de datos en toda la organización desarrollan los productos de datos. Una vez que los productos de datos se implementan en la malla de datos, los equipos distribuidos en una organización pueden descubrir y acceder a los datos relevantes para sus necesidades de manera más rápida y eficiente. Para lograr una malla de datos que funcione de forma correcta, primero debes establecer los componentes de la arquitectura de alto nivel y los roles organizativos que se describen en este documento.

Este documento forma parte de una serie en la que se describe cómo implementar una malla de datos en Google Cloud. Se supone que leíste y conoces los conceptos descritos en Compila una malla de datos moderna y distribuida con Google Cloud.

La serie tiene las siguientes partes:

En esta serie, la malla de datos que se describe es interna de una organización. Aunque es posible extender una arquitectura de malla de datos para proporcionar productos de datos a terceros, este enfoque extendido está fuera del alcance de este documento. La extensión de una malla de datos implica consideraciones adicionales más allá del uso dentro de una organización.

Arquitectura

Los siguientes términos clave se usan para definir los componentes de la arquitectura que se describen en esta serie:

  • Producto de datos: un producto de datos es un contenedor lógico o la agrupación de uno o más recursos de datos relacionados.
  • Recurso de datos: un recurso de datos es un recurso físico en un sistema de almacenamiento que contiene datos estructurados o almacena una consulta que produce datos estructurados.
  • Atributo de datos: un atributo de datos es un campo o elemento de un recurso de datos.

En el siguiente diagrama, se proporciona una descripción general de los componentes clave de la arquitectura en una malla de datos implementada en Google Cloud.

Componentes de la arquitectura en una malla de datos.

En el diagrama anterior, se muestra lo siguiente:

  • Los servicios centrales permiten la creación y la administración de productos de datos, incluidas las políticas de la organización que afectan a los participantes de la malla de datos, los controles de acceso (a través de los grupos de Identity and Access Management) y los artefactos específicos de la infraestructura. En Crea componentes y soluciones de plataforma, se describen ejemplos de tales compromisos y reservas, y una infraestructura que facilita el funcionamiento de la malla de datos.
  • Los servicios centrales proporcionan, sobre todo, Data Catalog para todos los productos de datos de la malla de datos y el mecanismo de descubrimiento de clientes potenciales de estos productos.
  • Los dominios de datos exponen subconjuntos de sus datos como productos de datos a través de interfaces de consumo de datos bien definidas. Estos productos de datos pueden ser una tabla, una vista, un archivo estructurado, un tema o una transmisión. En BigQuery, sería un conjunto de datos y, en Cloud Storage, sería una carpeta o un bucket. Puede haber diferentes tipos de interfaces que se puedan exponer como un producto de datos. Un ejemplo de una interfaz es una vista de BigQuery en una tabla de BigQuery. Los tipos de interfaces que se usan con mayor frecuencia con fines analíticos se abarcan en Compila productos de datos en una malla de datos.

Implementación de referencia de la malla de datos

Puedes encontrar una implementación de referencia de esta arquitectura en el repositorio de data-mesh-demo. Las secuencias de comandos de Terraform que se usan en la implementación de referencia demuestran los conceptos de la malla de datos y no están destinados al uso en producción. Mediante la ejecución de estas secuencias de comandos, aprenderás a hacer las siguientes tareas:

  • Separar las definiciones de los productos de los datos subyacentes
  • Crear plantillas de Data Catalog para describir las interfaces de los productos
  • Etiquetar las interfaces de productos con estas plantillas
  • Otorgar permisos a los consumidores de productos

Para las interfaces de productos, la implementación de referencia crea y usa los siguientes tipos de interfaces:

  • Vistas autorizadas en tablas de BigQuery
  • Flujos de datos basados en temas de Pub/Sub

Para obtener más detalles, consulta el archivo README en el repositorio.

Funciones en una malla de datos

A fin de que una malla de datos funcione bien, debes definir roles claros para las personas que realizan tareas dentro de la malla de datos. La propiedad se asigna a los arquetipos de equipo o funciones. Estas funciones contienen los recorridos principales de los usuarios para las personas que trabajan en la malla de datos. Para describir los recorridos de los usuarios con claridad, se les asignaron los roles de los usuarios. Estos roles de usuario se pueden dividir y combinar en función de las circunstancias de cada empresa. No es necesario que asignes los roles directamente a los empleados o equipos de tu organización.

Un dominio de datos está alineado con una unidad de negocios (BU) o una función dentro de una empresa. Los ejemplos comunes de dominios empresariales pueden ser el departamento de Hipotecas de un banco o los departamentos de Clientes, Distribución, Finanzas y RR.HH. de una empresa. Desde una perspectiva conceptual, hay dos funciones relacionadas con los dominios en una malla de datos: los equipos del productor de datos y los equipos del consumidor de datos. Es importante comprender que es probable que un solo dominio de datos entregue ambas funciones a la vez. Un equipo de dominio de datos produce productos de datos a partir de los datos que le pertenecen. El equipo también consume productos de datos para las estadísticas empresariales y a fin de producir productos de datos derivados para el uso de otros dominios.

Además de las funciones basadas en dominios, una malla de datos también tiene un conjunto de funciones que realizan los equipos centralizados dentro de la organización. Estos equipos centrales habilitan la operación de la malla de datos a través de la supervisión, los servicios y la administración entre dominios. Reducen la carga operativa de los dominios de datos en la producción y el consumo de productos de datos, y facilitan las relaciones entre dominios que se requieren para que funcione la malla de datos.

En este documento, solo se describen las funciones que tienen un rol específico de malla de datos. Hay muchas otros roles que se requieren en cualquier empresa, sin importar la arquitectura que se emplee para la plataforma. Sin embargo, estas otros roles están fuera del alcance de este documento.

Las cuatro funciones principales de una malla de datos son las siguientes:

  • Equipos de productores basados en dominios de datos: Crean y mantienen productos de datos durante su ciclo de vida. A menudo, estos equipos se denominan productores de datos.
  • Equipos de consumidores basados en dominios de datos: Descubren productos de datos y los usan en varias aplicaciones analíticas. Estos equipos pueden consumir productos de datos para crear productos de datos nuevos. A menudo, estos equipos se conocen como los consumidores de datos.
  • Equipo de administración de datos central: define y aplica políticas de administración de datos entre los productores de datos, lo que garantiza una alta calidad y confiabilidad de los datos para los consumidores. A menudo, este equipo se conoce como el equipo de administración de datos.
  • Equipo de plataforma de infraestructura de datos de autoservicio central: proporciona una plataforma de datos de autoservicio para los productores de datos. Este equipo también proporciona las herramientas para el descubrimiento central de datos y la observabilidad de productos de datos que usan los consumidores y los productores de datos. A menudo, este equipo se conoce como el equipo de la plataforma de datos.

Una función adicional opcional que se debe considerar es la del Centro de excelencia (COE) de la malla de datos. El propósito del COE es proporcionar administración de la malla de datos. El COE también es el equipo de arbitraje designado que resuelve cualquier conflicto generado por cualquiera de las otras funciones. Esta función es útil para ayudar a conectar las otras cuatro funciones.

Equipo del productor basado en dominios de datos

Por lo general, los productos de datos se compilan sobre un repositorio físico de datos (ya sea uno o varios almacenes de datos, data lakes o transmisiones). Una organización necesita roles de plataforma de datos tradicionales para crear y mantener estos repositorios físicos. Sin embargo, estos roles tradicionales de la plataforma de datos no suelen ser las personas que crean el producto de datos.

Para crear productos de datos a partir de estos repositorios físicos, una organización necesita una combinación de profesionales de datos, como ingenieros y arquitectos de datos. En la siguiente tabla, se enumeran todos los roles de usuario específicas del dominio que se necesitan en los equipos del productor de datos.


Rol

Responsabilidades

Habilidades requeridas

Resultados deseados

Propietario de productos de datos
  • Actúa como el punto de contacto empresarial principal para el producto de datos.
  • Es responsable de las definiciones, las políticas, las decisiones empresariales y la aplicación de reglas empresariales para los datos expuestos como productos.
  • Actúa como un punto de contacto para preguntas empresariales. Por lo tanto, el propietario representa el dominio de datos cuando se reúne con los equipos de consumidores de datos o los equipos centralizados (administración de datos y plataforma de infraestructura de datos).

Análisis de datos

Arquitectura de datos

Administración de productos
  • El producto de datos genera valor para los consumidores. Hay una administración sólida del ciclo de vida del producto de datos, lo que incluye decidir cuándo retirar un producto o lanzar una versión nueva.
  • Hay coordinación de elementos de datos universales con otros dominios de datos.

Líder técnico de productos de datos
  • Actúa como el punto de contacto técnico principal para el producto.
  • Es responsable de implementar y publicar interfaces de productos.
  • Actúa como un punto de contacto para preguntas técnicas. Por lo tanto, el líder representa el dominio de datos cuando se reúne con los equipos de consumidores de datos o los equipos centralizados (administración de datos y plataforma de infraestructura de datos).
  • Trabaja con el equipo de administración de datos para definir y, luego, implementar los estándares de la malla de datos en la organización.
  • Trabaja con el equipo de la plataforma de datos para ayudar a desarrollar la plataforma en conjunto con las necesidades técnicas que generan la producción y el consumo.

Ingeniería de datos

Arquitectura de datos

Ingeniería de software
  • El producto de datos cumple con los requisitos del negocio y los estándares técnicos de la malla de datos.
  • Los equipos de consumidores de datos usan el producto de datos y aparecen en los resultados que genera la experiencia de descubrimiento de productos de datos.
  • El uso del producto de datos se puede analizar (por ejemplo, la cantidad de consultas diarias).


Asistencia de productos de datos
  • Actúa como el punto de contacto para la asistencia de producción.
  • Es responsable de mantener el Acuerdo de Nivel de Servicio (ANS) del producto.

Ingeniería de software

Ingeniería de confiabilidad de sitios (SRE)
  • El producto de datos cumple con el ANS establecido.
  • Las preguntas del consumidor de datos sobre el uso del producto de datos se abordan y resuelven.

Experto en la materia (SME) para el dominio de datos
  • Representa el dominio de datos cuando se reúne con los SME de otros dominios de datos para establecer definiciones y límites de elementos de datos que son comunes en toda la organización.
  • Ayuda a los productores de datos nuevos dentro del dominio a definir los alcances de sus productos.

Análisis de datos

Arquitectura de datos
  • Colabora con otros SME de todos los dominios de datos para establecer y mantener una comprensión integral de los datos en la organización y los modelos de datos que usa.
  • Facilita la creación de productos de datos interoperables que coincidan con el modelo de datos general de la organización.
  • Existen estándares claros para la creación de productos de datos y la administración del ciclo de vida.
  • Los productos de datos del dominio de datos proporcionan valor empresarial.

Propietario de los datos
  • Es responsable de un área de contenido.
  • Es responsable de la calidad y exactitud de los datos.
  • Aprueba las solicitudes de acceso.
  • Contribuye a la documentación de productos de datos.
  • Cualquier habilidad, pero debe tener un conocimiento completo de la función empresarial.
  • Cualquier habilidad, pero debe tener un conocimiento completo de lo que significan los datos y las reglas empresariales relacionadas.
  • Cualquier habilidad, pero debe ser capaz de determinar la mejor resolución posible para los problemas de calidad de los datos.
  • Los datos que usan las áreas multifuncionales son precisos.
  • Las partes interesadas comprenden los datos.
  • El uso de datos cumple con las políticas de uso.

Equipos de consumidores basados en dominios de datos

En una malla de datos, las personas que consumen un producto de datos suelen ser usuarios de datos que están fuera del dominio del producto de datos. Estos consumidores de datos usan un catálogo de datos central para encontrar productos de datos que sean relevantes para sus necesidades. Debido a que es posible que más de un producto de datos pueda satisfacer sus necesidades, los consumidores de datos pueden terminar suscribiéndose a varios productos de datos.

Si los consumidores de datos no pueden encontrar el producto de datos requerido para su caso de uso, es su responsabilidad consultar directamente con el COE de la malla de datos. Durante esa consulta, los consumidores de datos pueden aumentar sus necesidades de datos y buscar asesoramiento sobre cómo satisfacer esas necesidades con uno o más dominios.

Cuando buscan un producto de datos, los consumidores de datos buscan datos que los ayuden a lograr varios casos de uso, como informes y paneles de estadísticas persistentes, informes de rendimiento individuales y otras métricas de rendimiento empresarial. Como alternativa, es posible que los consumidores de datos busquen productos de datos que se puedan usar en casos de uso de inteligencia artificial (IA) y aprendizaje automático (AA). Para lograr estos casos de uso, los consumidores de datos requieren una combinación de personas profesionales de datos, que son las siguientes:


Rol

Responsabilidades

Habilidades requeridas

Resultados deseados

Analista de datos

Busca, identifica, evalúa y se suscribe a productos de datos de dominio único o entre dominios para crear una base para que funcionen los frameworks de inteligencia empresarial.

Ingeniería de estadísticas

Estadísticas empresariales
  • Proporciona conjuntos de datos limpios, seleccionados y agregados para que los especialistas en visualización de datos los consuman.
  • Crea prácticas recomendadas para usar productos de datos.
  • Agrega y selecciona conjuntos de datos entre dominios para satisfacer las necesidades analíticas de su dominio.

Desarrollador de aplicaciones

Desarrolla un framework de aplicación para el consumo de datos en uno o más productos de datos, ya sea dentro o fuera del dominio.

Desarrollo de aplicaciones

Ingeniería de datos
  • Crea, entrega y mantiene aplicaciones que consumen datos de uno o más productos de datos.
  • Crea aplicaciones de datos para el consumo de usuario final.

Especialista en visualización de datos
  • Traduce la jerga de ingeniería de datos y de análisis de datos a información que las partes interesadas de la empresa pueden comprender.
  • Define los procesos para propagar informes empresariales de productos de datos.
  • Crea y supervisa informes que describen los objetivos comerciales estratégicos.
  • Colabora con los ingenieros de la organización para diseñar conjuntos de datos que se agregan a partir de los productos de datos consumidos.
  • Implementar soluciones de informes
  • Convierte los requisitos comerciales de alto nivel en requisitos técnicos.

Análisis de requisitos

Visualización de datos
  • Proporciona informes y conjuntos de datos válidos y precisos a los usuarios finales.
  • Los requisitos empresariales se cumplen a través de los paneles y los informes que se desarrollan.

Científico de datos
  • Busca, identifica, evalúa y se suscribe a productos de datos para casos de uso de ciencia de datos.
  • Extrae productos de datos y metadatos de varios dominios de datos.
  • Entrena modelos predictivos y, luego, los implementa para optimizar los procesos empresariales del dominio.
  • Proporciona comentarios sobre las posibles técnicas de selección y anotación de datos para varios dominios de datos.

Ingeniería de AA

Ingeniería de estadísticas
  • Crea modelos predictivos y prescriptivos para optimizar los procesos empresariales.
  • El entrenamiento y la implementación de modelos se realizan de manera oportuna.

Equipo central de administración de datos

El equipo de administración de datos permite que los productores y consumidores de datos compartan, agreguen y procesen datos de forma segura y segura, sin ingresar riesgos de cumplimiento a la organización.

Para cumplir con los requisitos de cumplimiento de la organización, el equipo de administración de datos es una combinación de profesionales de los datos datos, que son las siguientes:


Rol

Responsabilidades

Habilidades requeridas

Resultados deseados

Especialista en administración de datos
  • Brinda supervisión y coordina una sola vista del cumplimiento.
  • Recomienda políticas de privacidad en toda la malla sobre la recopilación de datos, la protección y la retención de datos.
  • Garantiza que los administradores de datos conozcan las políticas y puedan acceder a ellas.
  • Informa y consulta sobre las últimas regulaciones de privacidad de los datos según sea necesario.
  • Informa y consulta sobre preguntas de seguridad según sea necesario.
  • Realiza auditorías internas y comparte informes regulares sobre los planes de riesgo y control.

Pyme legal

Pyme de seguridad

Pyme de privacidad de datos
  • Las regulaciones de privacidad en las políticas están actualizadas.
  • Se informa a los productores de datos sobre los cambios en las políticas de forma oportuna.
  • La administración recibe informes oportunos y regulares sobre el cumplimiento de políticas para todos los productos de datos publicados.

Administrador de datos (se encuentra dentro de cada dominio)
  • Codifica las políticas que crean los especialistas en administración de datos.
  • Define y actualiza la taxonomía que usa una organización para anotar productos de datos, recursos de datos y atributos de datos con metadatos relacionados con la detección y la privacidad.
  • Coordenadas entre varias partes interesadas dentro y fuera de su dominio respectivo.
  • Garantiza que los productos de datos en su dominio cumplan con los estándares de metadatos y las políticas de privacidad de la organización.
  • Proporciona orientación a los ingenieros de administración de datos sobre cómo diseñar y priorizar las funciones de la plataforma de datos.

Arquitectura de datos

Administración de datos
  • Se crearon metadatos obligatorios para todos los productos de datos en el dominio y los productos de datos para el dominio se describen con precisión.
  • El equipo de plataforma de infraestructura de datos de autoservicio compila las herramientas adecuadas para automatizar las anotaciones de metadatos de los productos de datos, la creación y la verificación de políticas.

Ingeniero de administración de datos
  • Desarrolla herramientas que generan automáticamente anotaciones de datos y las pueden usar todos los dominios de datos y, luego, usan estas anotaciones para la aplicación de políticas.
  • Implementa la supervisión para verificar la coherencia de las anotaciones y las alertas cuando se encuentran problemas.
  • Garantiza que los empleados de la organización estén informados sobre el estado de los productos de datos a través de la implementación de alertas, informes y paneles.

Ingeniería de software
  • Las anotaciones de administración de datos se verifican de forma automática.
  • Los productos de datos cumplen con las políticas de administración de datos.
  • Los incumplimientos en los productos de datos se detectan de manera oportuna.

Equipo central de la plataforma de infraestructura de datos de autoservicio

El equipo de plataforma de infraestructura de datos de autoservicio, o solo el equipo de plataforma de datos, es responsable de crear un conjunto de componentes de infraestructura de datos. Los equipos de dominios de datos distribuidos usan estos componentes para compilar y, luego, implementar sus productos de datos. El equipo de la plataforma de datos también promueve las prácticas recomendadas y presenta herramientas y metodologías que ayudan a reducir la carga cognitiva para los equipos distribuidos cuando adoptan tecnología nueva.

La infraestructura de la plataforma debe facilitar la integración en herramientas de operaciones para la observabilidad, la instrumentación y la automatización del cumplimiento globales. Como alternativa, la infraestructura debe facilitar esa integración para configurar equipos distribuidos para tener éxito.

El equipo de la plataforma de datos tiene un modelo de responsabilidad compartida que usa con los equipos de dominios distribuidos y el equipo de infraestructura subyacente. El modelo muestra qué responsabilidades se esperan de los consumidores de la plataforma y qué componentes de la plataforma admite el equipo de la plataforma de datos.

Como la plataforma de datos es en sí misma un producto interno, la plataforma no admite todos los casos de uso. En cambio, el equipo de la plataforma de datos lanza de forma continua servicios y funciones nuevos de acuerdo con una hoja de ruta priorizada.

El equipo de la plataforma de datos puede tener un conjunto estándar de componentes implementados y en desarrollo. Sin embargo, los equipos de dominios de datos pueden optar por usar un conjunto de componentes único y diferente si las necesidades de un equipo no se alinean con las que proporciona la plataforma de datos. Si los equipos de los dominios de datos eligen un enfoque diferente, deben asegurarse de que cualquier infraestructura de plataforma que compilen y mantengan cumpla con las políticas y barreras de seguridad de toda la organización para la seguridad y la administración de datos. En el caso de la infraestructura de plataformas de datos que se desarrolla fuera del equipo central de la plataforma de datos, el equipo de la plataforma de datos puede optar por invertir en conjunto o incorporar sus propios ingenieros a los equipos de dominio. Que el equipo de la plataforma de datos opte por invertir en conjunto o incorporar ingenieros puede depender de la importancia estratégica de la infraestructura de la plataforma de dominio de datos para la organización. Gracias a la participación en el desarrollo de la infraestructura por parte de los equipos de dominios de datos, las organizaciones pueden brindar la alineación y la experiencia técnica necesarias para volver a empaquetar cualquier componente nuevo de la infraestructura de la plataforma que esté en desarrollo para volver a utilizarse en el futuro.

Es posible que debas limitar la autonomía en las primeras etapas de la compilación de una malla de datos si tu objetivo inicial es obtener la aprobación de las partes interesadas para escalar verticalmente la malla de datos. Sin embargo, limitar los riesgos de autonomía para crear un cuello de botella en el equipo central de la plataforma de datos Este cuello de botella puede impedir el escalamiento de la malla de datos. Por lo tanto, cualquier decisión de centralización debe tomarse con cuidado. Para los productores de datos, puede ser preferible elegir sus opciones técnicas a partir de un conjunto limitado de opciones disponibles, y evaluarlas y elegirlas entre una lista ilimitada de opciones. Elevar la autonomía de los productores de datos no equivale a crear un panorama tecnológico tecnológica sin éxito. En su lugar, el objetivo es impulsar el cumplimiento y la adopción de la plataforma a través del establecimiento del equilibrio adecuado entre la libertad de elección y la estandarización.

Por último, un buen equipo de plataforma de datos es una fuente central de educación y prácticas recomendadas para el resto de la empresa. Estas son algunas de las actividades más impactantes que recomendamos que realicen los equipos centrales de la plataforma de datos:

  • Fomentar las revisiones periódicas del diseño de la arquitectura para nuevos proyectos funcionales y proponer formas comunes de desarrollo en los equipos de desarrollo.
  • Compartir el conocimiento y las experiencias, y definir de forma colectiva las prácticas recomendadas y los lineamientos arquitectónicos.
  • Garantizar que los ingenieros tengan las herramientas adecuadas para validar y verificar los errores comunes, como los problemas con código, errores y degradaciones de rendimiento.
  • Organizar hackatones internos para que los equipos de desarrollo puedan destacar sus requisitos para las necesidades de herramientas internas.

Estos son algunos ejemplos de roles y responsabilidades para el equipo de la plataforma central de datos:

Rol Responsabilidades
Habilidades requeridas
Resultados deseados

Propietario de los productos de la plataforma de datos
  • Crea un ecosistema de infraestructura de datos y soluciones para permitir que los equipos distribuidos compilen productos de datos. Reduce la barrera técnica para la entrada, garantiza que se incorpore la administración y minimiza la deuda técnica colectiva para la infraestructura de datos.
  • Interfaces con líderes, propietarios de dominios de datos, equipos de administración de datos y propietarios de plataformas de tecnología para establecer la estrategia y la hoja de ruta de la plataforma de datos

Estrategia y operaciones de datos

Administración de productos

Administración de partes interesadas
  • Establece un ecosistema de productos de datos exitosos.
  • Hay una gran cantidad de productos de datos en producción.
  • Hay una reducción en el tiempo viable mínimo del producto y el tiempo de producción para los lanzamientos de productos de datos.
  • Se cuenta con una cartera de infraestructura y componentes generalizados que aborda las necesidades más comunes de los productores y consumidores de datos.
  • Hay una puntuación de satisfacción alta de los productores y los consumidores de datos.

Ingeniero de plataforma de datos
  • Crea infraestructura y soluciones de datos reutilizables y de autoservicio para la transferencia, el almacenamiento, el procesamiento y el consumo de datos a través de plantillas, planos de la arquitectura que se pueden implementar, guías para desarrolladores y otra documentación. También crea plantillas de Terraform, plantillas de canalización de datos, plantillas de contenedor y herramientas de organización.
  • Desarrolla y mantiene frameworks y servicios de datos centrales para estandarizar procesos para problemas multifuncionales, como uso compartido de datos, organización de canalizaciones, registro y supervisión, administración de datos, integración continua e implementación continua (CI/CD) con barreras de seguridad incorporadas, informes de seguridad y cumplimiento, e informes de FinOps.

Ingeniería de datos

Ingeniería de software
  • Existen componentes y soluciones de infraestructura reutilizables y estandarizados para que los productores de datos realicen transferencias de datos, almacenamiento, procesamiento, selección y uso compartido, junto con la documentación necesaria.
  • Las versiones de los componentes, las soluciones y la documentación del usuario final se alinean con la hoja de ruta.
  • Los usuarios informan un alto nivel de satisfacción del cliente.
  • Existen servicios compartidos sólidos para todas las funciones de la malla de datos.
  • Hay un tiempo de actividad alto para los servicios compartidos.
  • El tiempo de respuesta de la asistencia es corto.

Ingeniero de plataforma y seguridad (un representante de los equipos centrales de TI, como herramientas de redes y seguridad, que está incorporado en el equipo de la plataforma de datos)
  • Garantiza que las abstracciones de la plataforma de datos estén alineadas con los frameworks y las decisiones de tecnología de toda la empresa.
  • Ayuda a las actividades de ingeniería mediante la compilación de las soluciones y los servicios tecnológicos en su equipo principal que son necesarios para la entrega de plataformas de datos.

Ingeniería de infraestructura

Ingeniería de software
  • Los componentes de la infraestructura de la plataforma se desarrollan para la plataforma de datos.
  • Las versiones de los componentes, las soluciones y la documentación del usuario final se alinean con la hoja de ruta.
  • Los ingenieros de la plataforma central de datos central informan un alto nivel de satisfacción del cliente.
  • El estado de la plataforma de infraestructura mejora los componentes que usa la plataforma de datos (por ejemplo, el registro).
  • Los componentes tecnológicos subyacentes tienen un tiempo de actividad alto.
  • Cuando los ingenieros de la plataforma de datos tienen problemas, el tiempo de respuesta de la asistencia es corto.

Arquitecto empresarial
  • Alinea la arquitectura de la malla de datos y la plataforma de datos con la tecnología y la estrategia de datos de toda la empresa.
  • Proporciona asesoramiento y autoridad de diseño y garantía para las arquitecturas de plataformas de datos y productos de datos para garantizar la alineación con la estrategia y las prácticas recomendadas a nivel empresarial.

Arquitectura de datos

Iteración de soluciones y resolución de problemas

Creación de consenso
  • Se crea un ecosistema exitoso que incluye una gran cantidad de productos de datos para los cuales se reduce el tiempo para crear productos viables mínimos y lanzar esos productos a producción.
  • Se establecieron estándares de arquitectura para los recorridos de datos críticos, como el establecimiento de estándares comunes para la administración de metadatos y la arquitectura de uso compartido de datos.

Consideraciones adicionales para una malla de datos

Existen varias opciones de arquitectura para una plataforma de datos de estadísticas, cada una con diferentes requisitos. Para habilitar cada arquitectura de la malla de datos, sugerimos que tu organización siga las prácticas recomendadas que se describen en esta sección.

Adquiere fondos de la plataforma

Como se explicó en la entrada de blog, “Si deseas transformar el inicio con finanzas”, la plataforma nunca se termina, siempre funciona en función de un mapa de ruta priorizado. Por lo tanto, la plataforma debe financiarse como producto, no como un proyecto con un extremo fijo.

El primer usuario de la malla de datos soportará el costo. Por lo general, el costo se comparte entre la empresa que forma el primer dominio de datos para iniciar la malla de datos y el equipo de tecnología central, que suele alojar al equipo central de la plataforma de datos.

Para convencer a los equipos de finanzas para aprobar la financiación de la plataforma central, te recomendamos que generes un caso empresarial sobre el valor de la plataforma centralizada que se realizará con el tiempo. Ese valor proviene de la reimplementación de los mismos componentes en equipos de entrega individuales.

Define la plataforma viable mínima para la malla de datos

Para ayudarte a definir la plataforma mínima viable para la malla de datos, te recomendamos que iteres y pruebes con uno o más casos empresariales. Para tu piloto, busca los casos de uso que se necesiten y en los que un consumidor esté listo para adoptar el producto de datos resultante. Los casos de uso ya deben tener financiación para desarrollar los productos de datos, pero se necesita la participación de los equipos técnicos.

Asegúrate de que el equipo que implementa el piloto comprenda el modelo operativo de la malla de datos de la siguiente manera:

  • La empresa (es decir, el equipo del productor de datos) es propietario las tareas pendientes, la asistencia y el mantenimiento.
  • El equipo central define los patrones de autoservicio y ayuda a la empresa a compilar el producto de datos, pero pasa el producto de datos a la empresa para que se ejecute y sea propietario cuando se complete.
  • El objetivo principal es demostrar el modelo operativo empresarial (los dominios producidos y los dominios consumidos). El objetivo secundario es demostrar el modelo operativo técnico (patrones de autoservicio desarrollados por el equipo central).
  • Debido a que los recursos del equipo de la plataforma son limitados, usa el modelo de equipos troncales y de ramas para agrupar el conocimiento, pero permite el desarrollo de productos y servicios de plataforma especializados.

También te recomendamos que hagas lo siguiente:

  • Planifica hojas de ruta en lugar de permitir que los servicios y las funciones evolucionen de forma orgánica.
  • Define las capacidades mínimas de la plataforma viables que abarquen la transferencia, el almacenamiento, el procesamiento, el análisis y el AA.
  • Incorpora la administración de datos en cada paso, no como un flujo de trabajo independiente.
  • Implementa las capacidades mínimas de administración, plataforma, flujo de valor y administración de cambios. Las capacidades mínimas son aquellas que cumplen con el 80% de los casos empresariales.

Planifica la coexistencia de la malla de datos con una plataforma de datos existente

Es probable que muchas organizaciones que desean implementar una malla de datos ya tengan una plataforma de datos existente, como un data lake, un almacén de datos o una combinación de ambos. Antes de implementar una malla de datos, estas organizaciones deben planificar la forma en que su plataforma de datos existente puede evolucionar a medida que crece la malla de datos.

Estas organizaciones deben considerar los siguientes factores:

  • Los recursos de datos que son más eficaces en la malla de datos.
  • Los activos que deben permanecer dentro de la plataforma de datos existente.
  • Si los elementos deben moverse o si se pueden mantener en la plataforma existente y aún participar en la malla de datos.

¿Qué sigue?