O que é uma malha de dados?

A malha de dados é um framework arquitetônico para gerenciar dados em organizações complexas. Ao contrário dos modelos centralizados, a malha de dados descentraliza a propriedade dos dados para equipes específicas do domínio. Essa abordagem pode ajudar a eliminar gargalos ao tratar os dados como um produto, mas também introduz novos requisitos de recursos. O sucesso da malha de dados depende de equipes de domínio que possuam habilidades específicas de engenharia de dados e recursos de governança. Para organizações que têm recursos para oferecer suporte a equipes distribuídas, a malha de dados pode melhorar a agilidade. Para outros, modelos centralizados como data warehouses ou data lakes podem continuar sendo uma solução mais eficiente.

Princípios fundamentais da malha de dados

A malha de dados não é apenas um novo conjunto de ferramentas ou tecnologias, mas uma mudança na forma como as empresas pensam sobre os dados. Há quatro princípios básicos que orientam a abordagem de malha de dados. Esses princípios são o que torna a abordagem tão eficaz na solução dos problemas das arquiteturas de dados tradicionais e centralizadas.

Propriedade orientada ao domínio

Em uma arquitetura de dados tradicional, uma única equipe central, como uma equipe de TI ou engenharia de dados, é responsável por todos os dados. Em uma malha de dados, a propriedade dos dados é distribuída entre os domínios de negócios que os criam. Por exemplo, uma equipe de vendas seria proprietária dos dados de clientes que ela gera, e uma equipe de marketing seria proprietária dos dados de campanha que ela cria. Isso torna as equipes mais responsáveis e responsabilizadas pelos dados que produzem.

Dados como produto

Com a propriedade orientada a domínio, as equipes que criam dados também precisam tratá-los como um produto. Assim como uma empresa fornece um produto de alta qualidade a um cliente, uma equipe de domínio de dados precisa fornecer dados de alta qualidade a outras equipes que precisam deles. Isso significa que os dados são fáceis de descobrir, entender e usar. Ele também precisa ser confiável, seguro e bem documentado, com controles de acesso integrados para que apenas as pessoas certas acessem os dados destinados ao caso de uso delas.

Infraestrutura de dados de autoatendimento como plataforma

Para tornar possível o tratamento de dados como um produto, uma malha de dados usa uma plataforma de autoatendimento. Essa plataforma é um conjunto de ferramentas e serviços que permite que as equipes de domínio de dados criem e gerenciem facilmente seus produtos de dados sem precisar da ajuda de uma equipe central de dados. Ela pode ser uma plataforma simples e fácil de usar que automatiza muitas das tarefas técnicas envolvidas no gerenciamento de dados, como armazenamento, segurança e governança.

Governança computacional federada

Como os dados são descentralizados e distribuídos por muitas equipes diferentes, é preciso garantir que todos sigam as mesmas regras. É aí que entra a governança computacional federada. É um modelo em que uma equipe central pequena define as regras e os padrões globais para todos os dados. No entanto, a aplicação dessas regras é feita pelas próprias equipes de domínio de dados. Isso combina o melhor dos dois mundos: políticas centralizadas com execução descentralizada.

Perguntas frequentes sobre malha de dados

Um produto de dados em uma malha de dados deve ser localizável, endereçável, confiável, autodescritivo e seguro. Os consumidores de dados precisam descobrir os dados com facilidade, entender o que eles são e saber que são de alta qualidade. Ele também precisa ter regras de acesso claras e consistentes para garantir a segurança.

Começar uma malha de dados é um processo incremental. É melhor começar com um pequeno projeto piloto e algumas equipes de domínio dispostas. Comece identificando um domínio de negócios que possa se beneficiar de maior autonomia de dados. Em seguida, crie uma plataforma mínima de autoatendimento que permita que essa equipe crie um produto de dados. Com o sucesso do projeto, você pode usar os resultados como prova de conceito para convencer o restante da organização a adotar a arquitetura de malha de dados.

Um dos maiores desafios é a mudança cultural. Pode ser difícil para uma equipe de dados centralizada abrir mão do controle. Também há desafios técnicos, como garantir a segurança dos dados e gerenciar um sistema distribuído. No entanto, com um planejamento cuidadoso e uma estratégia de comunicação clara, esses desafios podem ser superados.

A malha de dados foi projetada para funcionar com sistemas de dados atuais. Ela não exige que você descarte seus data lakes ou data warehouses atuais. Em vez disso, ela pode ser implementada sobre eles. Uma malha de dados pode atuar como uma nova camada que oferece uma maneira unificada e de autoatendimento para as equipes acessarem dados de diferentes fontes.

Um equívoco comum é que a malha de dados é um produto que pode ser comprado. Não é isso. É uma nova forma de organizar e gerenciar dados. Outro mito é que ele é apenas para grandes empresas. Embora seja mais comum em grandes empresas, os princípios também podem ser aplicados a organizações menores.

Medir o sucesso de uma malha de dados pode ser complicado porque os benefícios geralmente não são financeiros no início. Em vez disso, você pode medir o sucesso analisando fatores como a velocidade da entrega de dados, o número de equipes que usam a plataforma de dados e a confiança que as equipes têm nos dados que estão consumindo. Com o tempo, essas melhorias podem levar a melhores resultados comerciais e a um maior retorno do investimento (ROI).

Malha de dados versus arquiteturas de dados tradicionais

A abordagem de malha de dados foi criada para resolver alguns dos problemas comuns com arquiteturas de dados tradicionais. Esses modelos, como data warehouses ou data lakes pertencentes a departamentos ou equipes individuais, podem criar silos de dados e riscos de governança, especialmente à medida que uma empresa cresce. A malha de dados resolve esses problemas distribuindo a propriedade e capacitando equipes individuais, mantendo controles centrais para governar e monitorar os dados em todos os domínios.

Recurso

Malha de dados

Arquiteturas tradicionais

Modelo arquitetônico

Descentralizada e distribuída entre domínios de negócios.

Centralizado e monolítico, gerenciado por uma única equipe.

Propriedade de dados

Os dados pertencem às equipes de domínio que os criam e usam.

Os dados são propriedade de uma equipe central de dados e gerenciados por ela.

Acesso a dados

As equipes acessam os dados por meio de produtos de dados padronizados.

As equipes precisam passar por uma equipe central para obter dados.

Escalonabilidade

Pode ser facilmente dimensionado à medida que novas equipes de domínio e produtos de dados são adicionados.

Pode se tornar um gargalo à medida que a organização e o volume de dados crescem.

Qualidade dos dados

As equipes de domínio são responsáveis pela qualidade dos próprios dados, o que pode aumentar a confiança e a precisão.

A qualidade dos dados pode ser inconsistente, pois a equipe central pode não ter o contexto de cada domínio.

Governança de dados

A governança é federada, com padrões e regras globais definidos centralmente, mas aplicados por equipes especializadas em cada área.

A governança é centralizada e gerenciada inteiramente por uma única equipe.

Caso de uso

Pode ser a melhor opção para organizações grandes e complexas, com dados diversificados e unidades de negócios independentes.

Pode ser a melhor opção para organizações menores ou para casos de uso específicos que exigem uma única fonte de verdade.

Conhecimentos técnicos/ recursos necessários

Requer habilidades técnicas distribuídas (engenharia, governança) dentro de cada equipe de domínio.

Centraliza a expertise técnica em uma equipe central de TI ou engenharia de dados.

Recurso

Malha de dados

Arquiteturas tradicionais

Modelo arquitetônico

Descentralizada e distribuída entre domínios de negócios.

Centralizado e monolítico, gerenciado por uma única equipe.

Propriedade de dados

Os dados pertencem às equipes de domínio que os criam e usam.

Os dados são propriedade de uma equipe central de dados e gerenciados por ela.

Acesso a dados

As equipes acessam os dados por meio de produtos de dados padronizados.

As equipes precisam passar por uma equipe central para obter dados.

Escalonabilidade

Pode ser facilmente dimensionado à medida que novas equipes de domínio e produtos de dados são adicionados.

Pode se tornar um gargalo à medida que a organização e o volume de dados crescem.

Qualidade dos dados

As equipes de domínio são responsáveis pela qualidade dos próprios dados, o que pode aumentar a confiança e a precisão.

A qualidade dos dados pode ser inconsistente, pois a equipe central pode não ter o contexto de cada domínio.

Governança de dados

A governança é federada, com padrões e regras globais definidos centralmente, mas aplicados por equipes especializadas em cada área.

A governança é centralizada e gerenciada inteiramente por uma única equipe.

Caso de uso

Pode ser a melhor opção para organizações grandes e complexas, com dados diversificados e unidades de negócios independentes.

Pode ser a melhor opção para organizações menores ou para casos de uso específicos que exigem uma única fonte de verdade.

Conhecimentos técnicos/ recursos necessários

Requer habilidades técnicas distribuídas (engenharia, governança) dentro de cada equipe de domínio.

Centraliza a expertise técnica em uma equipe central de TI ou engenharia de dados.

Casos de uso para malha de dados

A abordagem de malha de dados pode ser particularmente útil para organizações grandes e complexas que possuem múltiplas unidades de negócios e uma grande quantidade de dados. Aqui estão alguns casos de uso comuns em que uma malha de dados pode agregar valor significativo.

Uma malha de dados pode ajudar uma organização a obter mais valor de suas análises de dados einteligência de negócios (BI) iniciativas. Com produtos de dados de diferentes domínios, cientistas e analistas de dados podem obter uma visão mais completa do negócio. Por exemplo, uma empresa varejista pode combinar dados de clientes de seu domínio de vendas com dados de tráfego da web de seu domínio de marketing para entender melhor o comportamento do cliente.

Uma iniciativa de visão 360 do cliente visa criar uma perspectiva completa do cliente, combinando dados de diferentes fontes. Isso pode ser um desafio em uma arquitetura de dados centralizada, porque os dados geralmente ficam isolados em diferentes departamentos. Uma malha de dados facilita muito isso, fornecendo uma maneira padronizada de acessar e combinar produtos de dados de diferentes domínios, como vendas, marketing e suporte.

Nos serviços financeiros, uma malha de dados pode ser usada para monitoramento em tempo real e detecção de fraudes. Um banco, por exemplo, poderia ter um produto de dados para transações e outro para dados de login de clientes. Um sistema de detecção de fraudes pode então acessar ambos os conjuntos de dados para identificar atividades suspeitas. A natureza descentralizada de um data mesh pode ajudar na velocidade e na confiabilidade necessárias para esses tipos de aplicativos.

À medida que as regulamentações de privacidade de dados se tornam mais complexas, pode ser difícil garantir a conformidade em um modelo de dados centralizado. Uma malha de dados pode auxiliar na conformidade regulatória, permitindo que as equipes de domínio gerenciem seus próprios produtos de dados e garantam que estejam em conformidade com as leis locais. Isso é particularmente importante para empresas multinacionais que precisam cumprir diferentes regras de soberania de dados em diferentes países.

Os aplicações de IA e os agentes avançados precisam de dados de alta qualidade e ricos em contexto para funcionarem de forma eficaz. Em uma malha de dados, as equipes de domínio selecionam os dados especificamente para consumo, garantindo que estejam limpos, rotulados e documentados. Isso permite que os cientistas de dados treinem modelos com entradas confiáveis sem gastar muito tempo na preparação dos dados. Além disso, agentes de IA podem acessar esses produtos de dados modulares por meio de APIs para obter informações em tempo real, permitindo a execução de tarefas complexas em diferentes domínios de negócios com maior precisão.

Benefícios da adoção de uma malha de dados

Adotar uma malha de dados pode trazer benefícios significativos para uma organização. Ao adotar um modelo descentralizado, as empresas podem superar os gargalos das arquiteturas tradicionais e alcançar melhores resultados de negócios.


Agilidade e escalonabilidade

Uma malha de dados pode ser mais ágil. Cada domínio de dados pode funcionar de maneira independente, o que permite que a organização escale e evolua mais rapidamente. Isso pode facilitar a adição de novos produtos e serviços de dados sem causar interrupções.

Qualidade e confiança dos dados

Uma malha de dados pode atribuir responsabilidade às equipes de domínio que produzem os dados. Como as equipes de domínio também são os principais consumidores dos próprios dados, elas têm um forte incentivo para garantir a qualidade deles. Isso pode levar a dados mais confiáveis.

Economia

Uma malha de dados também pode ajudar uma empresa a se tornar mais eficiente em termos de custos. Com uma plataforma de dados centralizada, as equipes muitas vezes precisam esperar que uma equipe central de dados as ajude com suas necessidades de dados. Isso pode levar a atrasos e desperdício de recursos.

Estabelecer uma malha de dados unificada e governança centralizada

O Catálogo Universal Dataplex atua como uma estrutura de dados unificada e fornece uma camada central de governança sobre sua malha de dados. Isso pode ajudar você a descobrir, gerenciar e governar seus dados distribuídos em diversos ambientes, garantindo que você tenha uma única fonte de verdade para metadados e políticas. Para começar, você precisará criar um Dataplex Lake. Um lake do Dataplex é um contêiner de nível superior que armazena seus dados e normalmente é mapeado para um domínio de negócios.

Aqui estão os passos para criar um lago:

  1. No console do Google Cloud, acesse a página Lakes do Dataplex Universal Catalog.
  2. Após clicar em "Criar", dê ao seu novo lago um nome descritivo, como "Domínio de Dados de Vendas" ou "Malha de Dados de Marketing".
  3. Escolha uma região para seu data lake.
  4. Depois que o lago for criado, você poderá adicionar zonas. Uma zona é um subdomínio dentro do seu lago que representa uma equipe específica ou um contrato de dados. Por exemplo, dentro do repositório "Domínio de Dados de Vendas", você pode criar uma zona "Bruta" para dados não processados e uma zona "Curada" para dados limpos e prontos para produção.
  5. Após criar as zonas, você pode anexar ativos a elas. Um recurso é o dado real armazenado em um serviço como o Cloud Storage ou o BigQuery. Basta indicar à zona Dataplex a localização dos seus dados.

O Dataplex verifica automaticamente esses recursos para descobrir e catalogar metadados.

Acelere a descoberta com um marketplace de produtos de dados

Um elemento fundamental do princípio "dados como produto" é tornar os dados facilmente localizáveis. Compartilhamento de dados do BigQuery Permite criar um mercado de produtos de dados. Isso permite que as equipes de domínio compartilhem produtos de dados com outras equipes de maneira segura, sem copiar ou mover os dados. Ele ajuda os consumidores de dados a encontrar os dados de que precisam e fornece uma interface clara e bem definida para acessá-los.

Crie e compartilhe produtos de dados em uma plataforma sem servidor

Os serviços sem servidor do Google Cloud permitem que as equipes de domínio criem e gerenciem seus próprios produtos de dados com sobrecarga mínima. O BigQuery é um poderoso data warehouse sem servidor que permite às equipes analisar grandes conjuntos de dados de forma rápida e eficiente. O Dataflow é um serviço de processamento de dados sem servidor que pode ser usado para criar e automatizar pipelines de dados para produtos de dados. Esses serviços reduzem a necessidade de uma equipe central de engenharia de dados para gerenciar a infraestrutura, tornando as equipes de domínio mais autônomas e ágeis.

Garantir a conformidade com o controle de acesso baseado em atributos

A governança computacional federada é o princípio de ter uma equipe central definindo regras globais, mas permitindo que equipes de domínio as apliquem. O Gerenciamento de Identidade e Acesso (IAM) do Google Cloud fornece as ferramentas para implementar isso. As condições do IAM permitem o controle de acesso baseado em atributos (ABAC), onde você pode configurar permissões refinadas com base em atributos de dados. Por exemplo, você pode criar uma política que permita ao usuário acessar dados de clientes apenas de sua região específica, ajudando a garantir a conformidade com regulamentações de soberania de dados como o GDPR.

Resolva seus desafios comerciais com o Google Cloud

Clientes novos recebem US$ 300 em créditos para usar no Google Cloud.

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.

Google Cloud