Arquitetura e funções numa malha de dados

Last reviewed 2024-09-03 UTC

Uma malha de dados é uma framework arquitetónica e organizacional que trata os dados como um produto (referidos neste documento como produtos de dados). Nesta estrutura, os produtos de dados são desenvolvidos pelas equipas que melhor compreendem esses dados e que seguem um conjunto de normas de gestão de dados ao nível da organização. Depois de implementados na malha de dados, os produtos de dados permitem que as equipas distribuídas numa organização descubram e acedam aos dados relevantes para as suas necessidades de forma mais rápida e eficiente. Para alcançar uma malha de dados com um bom funcionamento, tem de estabelecer primeiro os componentes arquitetónicos de alto nível e as funções organizacionais que este documento descreve.

Este documento faz parte de uma série que descreve como implementar uma malha de dados no Google Cloud. Parte do princípio de que leu e está familiarizado com os conceitos descritos no artigo Crie uma malha de dados moderna e distribuída com Google Cloud.

A série tem as seguintes partes:

Nesta série, a malha de dados descrita é interna a uma organização. Embora seja possível expandir uma arquitetura de malha de dados para fornecer produtos de dados a terceiros, esta abordagem expandida está fora do âmbito deste documento. A expansão de uma malha de dados envolve considerações adicionais além da utilização numa organização.

Arquitetura

Os seguintes termos-chave são usados para definir os componentes de arquitetura descritos nesta série:

  • Produto de dados: um produto de dados é um contentor lógico ou um agrupamento de um ou mais recursos de dados relacionados.
  • Recurso de dados: um recurso de dados é um recurso físico num sistema de armazenamento que contém dados estruturados ou armazena uma consulta que gera dados estruturados.
  • Atributo de dados: um atributo de dados é um campo ou um elemento de um recurso de dados.

O diagrama seguinte oferece uma vista geral dos principais componentes de arquitetura numa malha de dados implementada no Google Cloud.

Componentes de arquitetura numa malha de dados.

O diagrama anterior mostra o seguinte:

  • Os serviços centrais permitem a criação e a gestão de produtos de dados, incluindo políticas organizacionais que afetam os participantes da malha de dados, controlos de acesso (através de grupos de gestão de identidade e de acesso) e os artefactos específicos da infraestrutura. Alguns exemplos destes compromissos e reservas, e da infraestrutura que facilita o funcionamento da malha de dados, são descritos no artigo Crie componentes e soluções de plataforma.
  • Os serviços centrais fornecem principalmente o catálogo de dados para todos os produtos de dados na malha de dados e o mecanismo de descoberta para potenciais clientes destes produtos.
  • Os domínios de dados expõem subconjuntos dos respetivos dados como produtos de dados através de interfaces de consumo de dados bem definidas. Estes produtos de dados podem ser uma tabela, uma vista, um ficheiro estruturado, um tópico ou uma stream. No BigQuery, seria um conjunto de dados e, no Cloud Storage, seria uma pasta ou um contentor. Podem existir diferentes tipos de interfaces que podem ser expostas como um produto de dados. Um exemplo de uma interface é uma vista do BigQuery sobre uma tabela do BigQuery. Os tipos de interfaces mais usados para fins de análise são abordados no artigo Crie produtos de dados numa malha de dados.

Implementação de referência da malha de dados

Pode encontrar uma implementação de referência desta arquitetura no repositório data-mesh-demo. Os scripts do Terraform usados na implementação de referência demonstram os conceitos de malha de dados e não se destinam a utilização em produção. Ao executar estes scripts, vai aprender a fazer o seguinte:

  • Separe as definições dos produtos dos dados subjacentes.
  • Crie modelos do catálogo de dados para descrever interfaces de produtos.
  • Etiquete interfaces de produtos com estes modelos.
  • Conceda autorizações aos consumidores do produto.

Para as interfaces de produtos, a implementação de referência cria e usa os seguintes tipos de interfaces:

  • Vistas autorizadas sobre tabelas do BigQuery.
  • Streams de dados baseadas em tópicos do Pub/Sub.

Para mais detalhes, consulte o ficheiro README no repositório.

Funções numa malha de dados

Para que uma malha de dados funcione bem, tem de definir funções claras para as pessoas que realizam tarefas na malha de dados. A propriedade é atribuída a arquétipos de equipas ou funções. Estas funções contêm os percursos do utilizador principais para as pessoas que trabalham na malha de dados. Para descrever claramente os percursos dos utilizadores, estes foram atribuídos a funções de utilizador. Estas funções de utilizador podem ser divididas e combinadas com base nas circunstâncias de cada empresa. Não precisa de mapear as funções diretamente com os funcionários ou as equipas na sua organização.

Um domínio de dados está alinhado com uma unidade de negócio (BU) ou uma função numa empresa. Alguns exemplos comuns de domínios empresariais podem ser o departamento de hipotecas de um banco ou os departamentos de clientes, distribuição, finanças ou recursos humanos de uma empresa. Em termos conceptuais, existem duas funções relacionadas com o domínio numa malha de dados: as equipas de produtores de dados e as equipas de consumidores de dados. É importante compreender que é provável que um único domínio de dados sirva ambas as funções em simultâneo. Uma equipa de domínio de dados produz produtos de dados a partir de dados que lhe pertencem. A equipa também consome produtos de dados para obter estatísticas empresariais e produzir produtos de dados derivados para utilização por outros domínios.

Além das funções baseadas no domínio, uma malha de dados também tem um conjunto de funções que são realizadas por equipas centralizadas na organização. Estas equipas centrais permitem o funcionamento da malha de dados, fornecendo supervisão, serviços e governação entre domínios. Reduzem o encargo operacional para os domínios de dados na produção e no consumo de produtos de dados, e facilitam as relações entre domínios necessárias para o funcionamento da malha de dados.

Este documento descreve apenas funções que têm um papel específico da malha de dados. Existem várias outras funções necessárias em qualquer empresa, independentemente da arquitetura usada para a plataforma. No entanto, estas outras funções estão fora do âmbito deste documento.

As quatro principais funções numa malha de dados são as seguintes:

  • Equipas de produtores baseadas no domínio de dados: criam e mantêm produtos de dados ao longo do respetivo ciclo de vida. Estas equipas são frequentemente denominadas produtores de dados.
  • Equipas de consumidores baseadas no domínio de dados: descubra produtos de dados e use-os em várias aplicações de análise. Estas equipas podem consumir produtos de dados para criar novos produtos de dados. Estas equipas são frequentemente referidas como os consumidores de dados.
  • Equipa central de administração de dados: define e aplica políticas de administração de dados entre os produtores de dados, garantindo uma elevada qualidade e fiabilidade dos dados para os consumidores. Esta equipa é frequentemente designada por equipa de administração de dados.
  • Equipa central da plataforma de infraestrutura de dados de self-service: oferece uma plataforma de dados de self-service para produtores de dados. Esta equipa também fornece as ferramentas para a deteção central de dados e a observabilidade dos produtos de dados que os consumidores e os produtores de dados usam. Esta equipa é frequentemente referida como a equipa da plataforma de dados.

Uma função adicional opcional a considerar é a de um centro de excelência (COE) para a malha de dados. O objetivo do COE é fornecer gestão da malha de dados. O COE é também a equipa de arbitragem designada que resolve quaisquer conflitos apresentados por qualquer uma das outras funções. Esta função é útil para ajudar a associar as outras quatro funções.

Equipa de produtores baseada no domínio de dados

Normalmente, os produtos de dados são criados com base num repositório físico de dados (seja um ou vários data warehouses, lagos ou streams). Uma organização precisa de funções tradicionais de plataforma de dados para criar e manter estes repositórios físicos. No entanto, estes papéis tradicionais da plataforma de dados não são normalmente as pessoas que criam o produto de dados.

Para criar produtos de dados a partir destes repositórios físicos, uma organização precisa de uma combinação de profissionais de dados, como engenheiros de dados e arquitetos de dados. A tabela seguinte apresenta todas as funções de utilizador específicas do domínio necessárias nas equipas de produtores de dados.


Função

Responsabilidades

Competências necessárias

Resultados desejados

Proprietário do produto de dados
  • Atua como o principal ponto de contacto empresarial para o produto de dados.
  • É responsável pelas definições, políticas, decisões empresariais e aplicação de regras empresariais aos dados expostos como produtos.
  • Atua como ponto de contacto para perguntas sobre empresas. Como tal, o proprietário representa o domínio de dados quando se reúne com as equipas de consumidores de dados ou as equipas centralizadas (plataforma de governação de dados e infraestrutura de dados).

Análise de dados

Arquitetura de dados

Gestão de produtos
  • O produto de dados está a gerar valor para os consumidores. Existe uma gestão robusta do ciclo de vida do produto de dados, incluindo a decisão de quando descontinuar um produto ou lançar uma nova versão.
  • Existe uma coordenação dos elementos de dados universais com outros domínios de dados.

Responsável técnico do produto de dados
  • Atua como o principal ponto de contacto técnico para o produto.
  • É responsável pela implementação e publicação de interfaces de produtos.
  • Atua como ponto de contacto para perguntas técnicas. Como tal, o responsável representa o domínio de dados quando se reúne com as equipas de consumidores de dados ou as equipas centralizadas (plataforma de governação de dados e infraestrutura de dados).
  • Trabalha com a equipa de administração de dados para definir e implementar normas de malha de dados na organização.
  • Trabalha com a equipa da plataforma de dados para ajudar a desenvolver a plataforma em conjunto com as necessidades técnicas geradas pela produção e pelo consumo.

Engenharia de dados

Arquitetura de dados

Engenharia de software
  • O produto de dados cumpre os requisitos empresariais e cumpre as normas técnicas da malha de dados.
  • As equipas de consumidores de dados usam o produto de dados e este aparece nos resultados gerados pela experiência de descoberta de produtos de dados.
  • A utilização do produto de dados pode ser analisada (por exemplo, o número de consultas diárias).


Apoio técnico para produtos de dados
  • Atua como o ponto de contacto para o apoio técnico de produção.
  • É responsável pela manutenção do contrato de nível de serviço (SLA) do produto.

Engenharia de software

Engenharia de fiabilidade de sites (EFS)
  • O produto de dados está a cumprir o SLA declarado.
  • As perguntas dos consumidores de dados sobre a utilização do produto de dados são resolvidas.

Especialista no assunto (SME) para o domínio de dados
  • Representa o domínio de dados quando se reúne com especialistas de outros domínios de dados para estabelecer definições e limites de elementos de dados comuns em toda a organização.
  • Ajuda os novos produtores de dados no domínio a definir os respetivos âmbitos dos produtos.

Análise de dados

Arquitetura de dados
  • Colabora com outros especialistas de PMEs de vários domínios de dados para estabelecer e manter uma compreensão abrangente dos dados na organização e dos modelos de dados que utiliza.
  • Facilita a criação de produtos de dados interoperáveis que correspondem ao modelo de dados geral da organização.
  • Existem normas claras para a criação de produtos de dados e a gestão do ciclo de vida.
  • Os produtos de dados do domínio de dados oferecem valor empresarial.

Proprietário dos dados
  • É responsável por uma área de conteúdo.
  • É responsável pela qualidade e precisão dos dados.
  • Aprova pedidos de acesso.
  • Contribui para a documentação de produtos de dados.
  • Qualquer competência, mas tem de ter conhecimento total da função empresarial.
  • Qualquer competência, mas tem de ter um conhecimento completo do significado dos dados e das regras empresariais relacionadas.
  • Qualquer competência, mas tem de conseguir determinar a melhor resolução possível para problemas de qualidade de dados.
  • Os dados usados por áreas multifuncionais são precisos.
  • As partes interessadas compreendem os dados.
  • A utilização de dados está em conformidade com as políticas de utilização.

Equipas de consumidores baseadas no domínio de dados

Numa malha de dados, as pessoas que consomem um produto de dados são normalmente utilizadores de dados que estão fora do domínio do produto de dados. Estes consumidores de dados usam um catálogo de dados central para encontrar produtos de dados relevantes para as suas necessidades. Uma vez que é possível que mais do que um produto de dados possa satisfazer as suas necessidades, os consumidores de dados podem acabar por subscrever vários produtos de dados.

Se os consumidores de dados não conseguirem encontrar o produto de dados necessário para o respetivo exemplo de utilização, é da sua responsabilidade consultar diretamente o COE da malha de dados. Durante essa consulta, os consumidores de dados podem apresentar as suas necessidades de dados e procurar aconselhamento sobre como satisfazer essas necessidades através de um ou mais domínios.

Quando procuram um produto de dados, os consumidores de dados procuram dados que os ajudem a alcançar vários exemplos de utilização, como painéis de controlo e relatórios de estatísticas persistentes, relatórios de desempenho individuais e outras métricas de desempenho da empresa. Em alternativa, os consumidores de dados podem estar à procura de produtos de dados que possam ser usados em exemplos de utilização de inteligência artificial (IA) e aprendizagem automática (AA). Para alcançar estes vários exemplos de utilização, os consumidores de dados precisam de uma combinação de perfis de profissionais de dados, que são os seguintes:


Função

Responsabilidades

Competências necessárias

Resultados desejados

Analista de dados

Pesquisa, identifica, avalia e subscreve produtos de dados de domínio único ou de vários domínios para criar uma base para o funcionamento das estruturas de inteligência empresarial.

Engenharia de análise

Análise empresarial
  • Fornece conjuntos de dados limpos, organizados e agregados para os especialistas em visualização de dados consumirem.
  • Cria práticas recomendadas sobre como usar produtos de dados.
  • Agrega e organiza conjuntos de dados de vários domínios para satisfazer as necessidades analíticas do respetivo domínio.

Programador de aplicações

Desenvolve uma estrutura de aplicação para o consumo de dados em um ou mais produtos de dados, dentro ou fora do domínio.

Desenvolvimento de aplicações

Engenharia de dados
  • Cria, publica e mantém aplicações que consomem dados de um ou mais produtos de dados.
  • Cria aplicações de dados para consumo do utilizador final.

Especialista em visualização de dados
  • Traduz a gíria da engenharia de dados e da análise de dados em informações que as partes interessadas da empresa podem compreender.
  • Define processos para preencher relatórios empresariais a partir de produtos de dados.
  • Cria e monitoriza relatórios que descrevem os objetivos estratégicos da empresa.
  • Colabora com engenheiros na organização para criar conjuntos de dados agregados a partir de produtos de dados consumidos.
  • Implementa soluções de relatórios.
  • Traduz requisitos empresariais de alto nível em requisitos técnicos.

Análise de requisitos

Visualização de dados
  • Fornece conjuntos de dados e relatórios válidos e precisos aos utilizadores finais.
  • Os requisitos empresariais são cumpridos através dos painéis de controlo e dos relatórios desenvolvidos.

Cientista de dados
  • Pesquisa, identifica, avalia e subscreve produtos de dados para exemplos de utilização da ciência dos dados.
  • Extrai produtos de dados e metadados de vários domínios de dados.
  • Prepara modelos preditivos e implementa esses modelos para otimizar os processos empresariais do domínio.
  • Fornece feedback sobre possíveis técnicas de organização e anotação de dados para vários domínios de dados.

Engenharia de ML

Engenharia de análise
  • Cria modelos preditivos e prescritivos para otimizar os processos empresariais.
  • A preparação e a implementação de modelos são feitas atempadamente.

Equipa de gestão de dados central

A equipa de administração de dados permite que os produtores e os consumidores de dados partilhem, agreguem e calculem dados em regime de self-service, sem introduzir riscos de conformidade na organização.

Para cumprir os requisitos de conformidade da organização, a equipa de administração de dados é uma combinação de perfis de profissionais de dados, que são os seguintes:


Função

Responsabilidades

Competências necessárias

Resultados desejados

Especialista de gestão de dados
  • Fornece supervisão e coordena uma vista única da conformidade.
  • Recomenda políticas de privacidade ao nível da malha sobre a recolha, a proteção e a retenção de dados.
  • Garante que os responsáveis pelos dados conhecem as políticas e podem aceder às mesmas.
  • Informa e consulta sobre os regulamentos de privacidade de dados mais recentes, conforme necessário.
  • Informa e consulta sobre questões de segurança, conforme necessário.
  • Realiza auditorias internas e partilha relatórios regulares sobre os planos de risco e controlo.

Especialista jurídico

Especialista em segurança

Especialista em privacidade de dados
  • Os regulamentos de privacidade nas políticas estão atualizados.
  • Os produtores de dados são informados das alterações às políticas em tempo útil.
  • A gestão recebe relatórios atempados e regulares sobre a conformidade com as políticas de todos os produtos de dados publicados.

Responsável pelos dados (integrado em cada domínio)
  • Codifica as políticas criadas pelos especialistas em administração de dados.
  • Define e atualiza a taxonomia que uma organização usa para anotar produtos de dados, recursos de dados e atributos de dados com metadados relacionados com a descoberta e a privacidade.
  • Coordenar-se com vários intervenientes dentro e fora do seu respetivo domínio.
  • Garante que os produtos de dados no respetivo domínio cumprem as normas de metadados e as políticas de privacidade da organização.
  • Fornece orientações aos engenheiros de governação de dados sobre como conceber e dar prioridade às funcionalidades da plataforma de dados.

Arquitetura de dados

Gestão de dados
  • Os metadados obrigatórios foram criados para todos os produtos de dados no domínio e os produtos de dados para o domínio são descritos com precisão.
  • A equipa da plataforma de infraestrutura de dados self-service está a criar as ferramentas certas para automatizar as anotações de metadados dos produtos de dados, a criação e a validação de políticas.

Engenheiro de gestão de dados
  • Desenvolve ferramentas que geram automaticamente anotações de dados e podem ser usadas por todos os domínios de dados e, em seguida, usa estas anotações para a aplicação de políticas.
  • Implementa a monitorização para verificar a consistência das anotações e envia alertas quando são encontrados problemas.
  • Garante que os funcionários da organização são informados do estado dos produtos de dados através da implementação de alertas, relatórios e painéis de controlo.

Engenharia de software
  • As anotações de administração de dados são validadas automaticamente.
  • Os produtos de dados estão em conformidade com as políticas de gestão de dados.
  • As violações de produtos de dados são detetadas atempadamente.

Equipa central da plataforma de infraestrutura de dados self-service

A equipa da plataforma de infraestrutura de dados self-service, ou apenas a equipa da plataforma de dados, é responsável pela criação de um conjunto de componentes de infraestrutura de dados. As equipas de domínio de dados distribuídos usam estes componentes para criar e implementar os respetivos produtos de dados. A equipa da plataforma de dados também promove práticas recomendadas e introduz ferramentas e metodologias que ajudam a reduzir a carga cognitiva das equipas distribuídas quando adotam novas tecnologias.

A infraestrutura da plataforma deve oferecer uma integração fácil com as ferramentas de operações para observabilidade global, instrumentação e automatização da conformidade. Em alternativa, a infraestrutura deve facilitar essa integração para configurar equipas distribuídas para o sucesso.

A equipa da plataforma de dados tem um modelo de responsabilidade partilhada que usa com as equipas de domínio distribuídas e a equipa de infraestrutura subjacente. O modelo mostra as responsabilidades esperadas dos consumidores da plataforma e os componentes da plataforma que a equipa da plataforma de dados suporta.

Uma vez que a plataforma de dados é, em si mesma, um produto interno, não suporta todos os exemplos de utilização. Em alternativa, a equipa da plataforma de dados lança continuamente novos serviços e funcionalidades de acordo com um plano prioritário.

A equipa da plataforma de dados pode ter um conjunto padrão de componentes implementados e em desenvolvimento. No entanto, as equipas de domínio de dados podem optar por usar um conjunto de componentes diferente e único se as necessidades de uma equipa não se alinharem com as fornecidas pela plataforma de dados. Se as equipas do domínio de dados escolherem uma abordagem diferente, têm de garantir que qualquer infraestrutura de plataforma que criem e mantenham está em conformidade com as políticas e as salvaguardas ao nível da organização para segurança e gestão de dados. Para a infraestrutura da plataforma de dados desenvolvida fora da equipa central da plataforma de dados, a equipa da plataforma de dados pode optar por co-investir ou incorporar os seus próprios engenheiros nas equipas de domínio. A decisão da equipa da plataforma de dados de investir em conjunto ou incorporar engenheiros pode depender da importância estratégica da infraestrutura da plataforma do domínio de dados para a organização. Ao manterem-se envolvidas no desenvolvimento da infraestrutura por equipas de domínio de dados, as organizações podem fornecer o alinhamento e a especialização técnica necessários para reembalar quaisquer novos componentes de infraestrutura da plataforma que estejam em desenvolvimento para reutilização futura.

Pode ter de limitar a autonomia nas fases iniciais da criação de uma malha de dados se o seu objetivo inicial for obter a aprovação das partes interessadas para expandir a malha de dados. No entanto, limitar a autonomia acarreta o risco de criar um gargalo na equipa da plataforma de dados central. Este gargalo pode impedir a expansão da malha de dados. Por isso, quaisquer decisões de centralização devem ser tomadas cuidadosamente. Para os produtores de dados, fazer as suas escolhas técnicas a partir de um conjunto limitado de opções disponíveis pode ser preferível a avaliar e escolher a partir de uma lista ilimitada de opções. A promoção da autonomia dos produtores de dados não equivale à criação de um panorama tecnológico não regulamentado. Em alternativa, o objetivo é promover a conformidade e a adoção da plataforma, encontrando o equilíbrio certo entre a liberdade de escolha e a padronização.

Por último, uma boa equipa de plataforma de dados é uma fonte central de formação e práticas recomendadas para o resto da empresa. Seguem-se algumas das atividades mais impactantes que recomendamos que as equipas da plataforma de dados centralizada realizem:

  • Promover revisões regulares do design arquitetónico para novos projetos funcionais e propor formas comuns de desenvolvimento entre as equipas de desenvolvimento.
  • Partilhar conhecimentos e experiências, e definir coletivamente práticas recomendadas e diretrizes arquitetónicas.
  • Garantir que os engenheiros têm as ferramentas certas para validar e verificar erros comuns, como problemas com o código, erros e degradações de desempenho.
  • Organizar hackatons internos para que as equipas de desenvolvimento possam apresentar os seus requisitos para necessidades de ferramentas internas.

Seguem-se exemplos de funções e responsabilidades da equipa da plataforma de dados central:

Role Responsabilidades
Competências necessárias
Resultados desejados

Proprietário do produto da plataforma de dados
  • Cria um ecossistema de infraestrutura de dados e soluções para permitir que as equipas distribuídas criem produtos de dados. Reduz a barreira técnica à entrada, garante que a governação está incorporada e minimiza a dívida técnica coletiva para a infraestrutura de dados.
  • Interage com a liderança, os proprietários do domínio de dados, a equipa de governação de dados e os proprietários da plataforma tecnológica para definir a estratégia e o plano para a plataforma de dados.

Estratégia e operações de dados

Gestão de produtos

Gestão de partes interessadas
  • Estabelece um ecossistema de produtos de dados bem-sucedidos.
  • Existem números robustos de produtos de dados em produção.
  • Há uma redução no tempo até ao produto viável mínimo e no tempo até à produção para lançamentos de produtos de dados.
  • Está em vigor um portefólio de infraestrutura e componentes generalizados que abordam as necessidades mais comuns dos produtores e consumidores de dados.
  • Existe uma pontuação de satisfação elevada por parte dos produtores e dos consumidores de dados.

Engenheiro de plataforma de dados
  • Cria soluções e infraestrutura de dados reutilizáveis e de autosserviço para carregamento, armazenamento, processamento e consumo de dados através de modelos, esquemas de arquitetura implementáveis, guias do programador e outra documentação. Também cria modelos do Terraform, modelos de pipeline de dados, modelos de contentores e ferramentas de orquestração.
  • Desenvolve e mantém serviços e frameworks de dados centrais para padronizar processos para preocupações multifuncionais, como partilha de dados, orquestração de pipelines, registo e monitorização, governação de dados, integração contínua e implementação contínua (CI/CD) com salvaguardas incorporadas, relatórios de segurança e conformidade, e relatórios de FinOps.

Engenharia de dados

Engenharia de software
  • Existem componentes de infraestrutura padronizados e reutilizáveis, bem como soluções para os produtores de dados realizarem a obtenção, o armazenamento, o tratamento, a organização e a partilha de dados, juntamente com a documentação necessária.
  • Os lançamentos de componentes, soluções e documentação do utilizador final estão alinhados com o plano.
  • Os utilizadores comunicam um elevado nível de satisfação do cliente.
  • Existem serviços partilhados robustos para todas as funções na malha de dados.
  • Existe um tempo de atividade elevado para os serviços partilhados.
  • O tempo de resposta do apoio técnico é curto.

Engenheiro de plataforma e segurança (um representante das equipas de TI centrais, como redes e segurança, que está integrado na equipa da plataforma de dados)
  • Garante que as abstrações da plataforma de dados estão alinhadas com as decisões e as estruturas tecnológicas ao nível da empresa.
  • Apoia as atividades de engenharia através da criação das soluções e dos serviços tecnológicos na respetiva equipa principal que são necessários para a disponibilização da plataforma de dados.

Engenharia de infraestruturas

Engenharia de software
  • Os componentes da infraestrutura da plataforma são desenvolvidos para a plataforma de dados.
  • Os lançamentos de componentes, soluções e documentação do utilizador final estão alinhados com o plano.
  • Os engenheiros da plataforma de dados central comunicam um elevado nível de satisfação do cliente.
  • A integridade da plataforma de infraestrutura melhora para os componentes usados pela plataforma de dados (por exemplo, registo).
  • Os componentes tecnológicos subjacentes têm um tempo de atividade elevado.
  • Quando os engenheiros da plataforma de dados têm problemas, o tempo de resposta do apoio técnico é curto.

Arquiteto empresarial
  • Alinha a arquitetura de malha de dados e plataforma de dados com a tecnologia e a estratégia de dados ao nível empresarial.
  • Fornece autoridade e garantia de consultoria e design para as arquiteturas de plataforma de dados e produtos de dados, de modo a garantir o alinhamento com a estratégia e as práticas recomendadas ao nível empresarial.

Arquitetura de dados

Iteração de soluções e resolução de problemas

Criação de consenso
  • É criado um ecossistema bem-sucedido que inclui números robustos de produtos de dados para os quais existe uma redução no tempo necessário para criar produtos mínimos viáveis e para lançar esses produtos em produção.
  • Foram estabelecidos padrões de arquitetura para percursos de dados críticos, como o estabelecimento de padrões comuns para a gestão de metadados e para a arquitetura de partilha de dados.

Considerações adicionais para uma malha de dados

Existem várias opções de arquitetura para uma plataforma de dados de estatísticas, cada uma com pré-requisitos diferentes. Para ativar cada arquitetura de malha de dados, recomendamos que a sua organização siga as práticas recomendadas descritas nesta secção.

Adquira financiamento da plataforma

Conforme explicado na publicação do blogue "Se quiser transformar, comece pelas finanças", a plataforma nunca está concluída: está sempre a funcionar com base num plano prioritário. Por conseguinte, a plataforma tem de ser financiada como um produto e não como um projeto com um ponto final fixo.

O primeiro adotante da malha de dados suporta o custo. Normalmente, o custo é partilhado entre a empresa que forma o primeiro domínio de dados para iniciar a malha de dados e a equipa de tecnologia central, que geralmente alberga a equipa central da plataforma de dados.

Para convencer as equipas financeiras a aprovarem o financiamento da plataforma central, recomendamos que apresente um argumento comercial sobre o valor da plataforma centralizada que se vai concretizar ao longo do tempo. Esse valor resulta da reimplementação dos mesmos componentes em equipas de fornecimento individuais.

Defina a plataforma viável mínima para a malha de dados

Para ajudar a definir a plataforma mínima viável para a malha de dados, recomendamos que teste e itere com um ou mais exemplos práticos. Para o seu teste-piloto, encontre exemplos de utilização necessários e onde exista um consumidor pronto para adotar o produto de dados resultante. Os exemplos de utilização já devem ter financiamento para desenvolver os produtos de dados, mas deve existir uma necessidade de contributo das equipas técnicas.

Certifique-se de que a equipa que está a implementar o teste-piloto compreende o modelo de funcionamento da malha de dados da seguinte forma:

  • A empresa (ou seja, a equipa de produção de dados) é proprietária da lista de pendências, do apoio técnico e da manutenção.
  • A equipa central define os padrões de autosserviço e ajuda a empresa a criar o produto de dados, mas transfere o produto de dados para a empresa para execução e propriedade quando estiver concluído.
  • O objetivo principal é comprovar o modelo de funcionamento da empresa (domínios que produzem, domínios que consomem). O objetivo secundário é validar o modelo de funcionamento técnico (padrões de self-service desenvolvidos pela equipa central).
  • Como os recursos da equipa da plataforma são limitados, use o modelo de equipas principais e secundárias para reunir conhecimentos, mas ainda permitir o desenvolvimento de serviços e produtos de plataforma especializados.

Também recomendamos que faça o seguinte:

  • Planeie roteiros em vez de deixar que os serviços e as funcionalidades evoluam organicamente.
  • Definir capacidades mínimas viáveis da plataforma que abrangem o carregamento, o armazenamento, o processamento, a análise e a aprendizagem automática.
  • Incorporar a governação de dados em cada passo, e não como um fluxo de trabalho separado.
  • Implementar as capacidades mínimas na governação, na plataforma, na cadeia de valor e na gestão de alterações. As capacidades mínimas são as que satisfazem 80% dos exemplos de utilização.

Planeie a coexistência da malha de dados com uma plataforma de dados existente

Muitas organizações que querem implementar uma malha de dados já têm uma plataforma de dados existente, como um lago de dados, um armazém de dados ou uma combinação de ambos. Antes de implementar uma malha de dados, estas organizações têm de criar um plano para a forma como a respetiva plataforma de dados existente pode evoluir à medida que a malha de dados cresce.

Estas organizações devem considerar fatores como os seguintes:

  • Os recursos de dados mais eficazes na malha de dados.
  • Os recursos que têm de permanecer na plataforma de dados existente.
  • Se os recursos têm de ser movidos ou se podem ser mantidos na plataforma existente e continuar a participar na malha de dados.

O que se segue?