Recomendamos que crie a sua malha de dados para suportar uma grande variedade de exemplos de utilização para o consumo de dados. Os exemplos de utilização de consumo de dados mais comuns numa organização são descritos neste documento. O documento também aborda as informações que os consumidores de dados têm de considerar ao determinar o produto de dados certo para o respetivo exemplo de utilização, e como descobrem e usam produtos de dados. A compreensão destes fatores pode ajudar as organizações a garantir que têm as orientações e as ferramentas certas para apoiar os consumidores de dados.
Este documento faz parte de uma série que descreve como implementar uma malha de dados no Google Cloud. Parte do princípio de que leu e está familiarizado com os conceitos descritos em Arquitetura e funções numa malha de dados e Crie uma malha de dados moderna e distribuída com o Google Cloud.
A série tem as seguintes partes:
- Arquitetura e funções numa malha de dados
- Conceba uma plataforma de dados self-service para uma malha de dados
- Crie produtos de dados numa malha de dados
- Descubra e consuma produtos de dados numa malha de dados (este documento)
A conceção de uma camada de consumo de dados, especificamente, a forma como os consumidores baseados em domínios de dados usam os produtos de dados, depende dos requisitos dos consumidores de dados. Como pré-requisito, presume-se que os consumidores têm um exemplo de utilização em mente. Presume-se que identificaram os dados de que precisam e podem pesquisar no catálogo de produtos de dados central para os encontrar. Se esses dados não estiverem no catálogo ou não estiverem no estado preferencial (por exemplo, se a interface não for adequada ou os SLAs forem insuficientes), o consumidor tem de contactar o produtor de dados.
Em alternativa, o consumidor pode contactar o centro de excelência (COE) para a malha de dados para receber aconselhamento sobre qual o domínio mais adequado para produzir esse produto de dados. Os consumidores de dados também podem perguntar como fazer o seu pedido. Se a sua organização for grande, deve existir um processo para fazer pedidos de produtos de dados de forma autónoma.
Os consumidores de dados usam produtos de dados através das aplicações que executam. O tipo de estatísticas necessárias determina a escolha do design da aplicação que consome dados. Quando desenvolvem o design da aplicação, o consumidor de dados também identifica a sua utilização preferencial de produtos de dados na aplicação. Estabelecem a confiança de que precisam na fidedignidade e fiabilidade desses dados. Os consumidores de dados podem, então, estabelecer uma vista nas interfaces de produtos de dados e nos SLAs que a aplicação requer.
Exemplos de utilização de consumo de dados
Para os consumidores de dados criarem aplicações de dados, as origens podem ser um ou mais produtos de dados e, talvez, os dados do próprio domínio do consumidor de dados. Conforme descrito no artigo Crie produtos de dados numa malha de dados, os produtos de dados analíticos podem ser criados a partir de produtos de dados baseados em vários repositórios de dados físicos.
Embora o consumo de dados possa ocorrer no mesmo domínio, os padrões de consumo mais comuns são os que procuram o produto de dados certo, independentemente do domínio, como a origem da aplicação. Quando o produto de dados certo existe noutro domínio, o padrão de consumo requer que configure o mecanismo subsequente para acesso e utilização dos dados em vários domínios. O consumo de produtos de dados criados em domínios diferentes do domínio de consumo é abordado nos passos de consumo de dados.
Arquitetura
O diagrama seguinte mostra um cenário de exemplo em que os consumidores usam produtos de dados através de uma variedade de interfaces, incluindo conjuntos de dados autorizados e APIs.
Conforme mostrado no diagrama anterior, o produtor de dados expôs quatro interfaces de produtos de dados: dois conjuntos de dados autorizados do BigQuery, um conjunto de dados do BigQuery exposto pela API BigQuery Storage Read e APIs de acesso a dados alojadas no Google Kubernetes Engine. Ao usar os produtos de dados, os consumidores de dados usam uma variedade de aplicações que consultam ou acedem diretamente aos recursos de dados nos produtos de dados. Para este cenário, os consumidores de dados acedem aos recursos de dados de uma de duas formas diferentes com base nos respetivos requisitos de acesso aos dados específicos. Na primeira forma, o Looker usa o SQL do BigQuery para consultar um conjunto de dados autorizado. Na segunda forma, o Dataproc acede diretamente a um conjunto de dados através da API BigQuery e, em seguida, processa esses dados carregados para preparar um modelo de aprendizagem automática (AA).
A utilização de uma aplicação de consumo de dados nem sempre resulta num relatório de business intelligence (BI) ou num painel de controlo de BI. O consumo de dados de um domínio também pode resultar em modelos de ML que enriquecem ainda mais os produtos analíticos, são usados na análise de dados ou fazem parte de processos operacionais, por exemplo, a deteção de fraudes.
Seguem-se alguns exemplos de utilização típicos de consumo de produtos de dados:
- Relatórios de BI e análise de dados: neste caso, as aplicações de dados são criadas para consumir dados de vários produtos de dados. Por exemplo, os consumidores de dados da equipa de gestão das relações com clientes (CRM) precisam de acesso aos dados de vários domínios, como vendas, clientes e finanças. A aplicação de CRM desenvolvida por estes consumidores de dados pode ter de consultar uma vista autorizada do BigQuery num domínio e extrair dados de uma API Cloud Storage Read noutro domínio. Para os consumidores de dados, os fatores de otimização que influenciam a respetiva interface de consumo preferencial são os custos de computação e qualquer processamento de dados adicional necessário depois de consultarem o produto de dados. Nos exemplos de utilização de BI e análise de dados, as vistas autorizadas do BigQuery são provavelmente as mais usadas.
- Exemplos de utilização da ciência de dados e preparação de modelos: neste caso, a equipa que usa os dados está a usar os produtos de dados de outros domínios para enriquecer o seu próprio produto de dados analíticos, como um modelo de aprendizagem automática. Ao usar oGoogle Cloud sem servidor para o Apache Spark, Google Cloud oferece capacidades de pré-processamento de dados e engenharia de funcionalidades para permitir o enriquecimento de dados antes de executar tarefas de ML. As principais considerações são a disponibilidade de quantidades suficientes de dados de preparação a um custo razoável e a confiança de que os dados de preparação são os dados adequados. Para manter os custos baixos, é provável que as interfaces de consumo preferenciais sejam APIs de leitura direta. É possível que uma equipa que usa dados crie um modelo de ML como um produto de dados e, por sua vez, essa equipa que usa dados também se torne uma nova equipa que produz dados.
- Processos do operador: o consumo faz parte do processo operacional no domínio de consumo de dados. Por exemplo, um consumidor de dados numa equipa que lida com fraudes pode estar a usar dados de transações provenientes de origens de dados operacionais no domínio do comerciante. Ao usar um método de integração de dados, como a captura de dados de alterações, estes dados de transações são intercetados quase em tempo real. Em seguida, pode usar o Pub/Sub para definir um esquema para estes dados e expor essas informações como eventos. Neste caso, as interfaces adequadas seriam dados expostos como tópicos do Pub/Sub.
Passos de consumo de dados
Os produtores de dados documentam o respetivo produto de dados no catálogo central, incluindo orientações sobre como consumir os dados. Para uma organização com vários domínios, esta abordagem de documentação cria uma arquitetura diferente do pipeline ELT/ETL criado centralmente tradicional, em que os processadores criam resultados sem o limite dos domínios empresariais. Os consumidores de dados numa malha de dados têm de ter uma camada de descoberta e consumo bem concebida para criar um ciclo de vida de consumo de dados. A camada deve incluir o seguinte:
Passo 1: descubra produtos de dados através da pesquisa declarativa e da exploração das especificações dos produtos de dados: os consumidores de dados podem pesquisar livremente qualquer produto de dados que os produtores de dados tenham registado no catálogo central. Para todos os produtos de dados, a etiqueta do produto de dados especifica como fazer pedidos de acesso a dados e o modo de consumir dados a partir da interface do produto de dados necessária. Os campos nas etiquetas do produto de dados são pesquisáveis através de uma aplicação de pesquisa. As interfaces de produtos de dados implementam URIs de dados, o que significa que os dados não precisam de ser movidos para uma zona de consumo separada para servir os consumidores. Em situações em que não são necessários dados em tempo real, os consumidores consultam produtos de dados e criam relatórios com os resultados gerados.
Passo 2: explorar dados através do acesso interativo aos dados e da criação de protótipos: os consumidores de dados usam ferramentas interativas, como o BigQuery Studio e os blocos de notas Jupyter, para interpretar e experimentar os dados, de modo a refinar as consultas de que precisam para utilização em produção. As consultas interativas permitem que os consumidores de dados explorem dimensões de dados mais recentes e melhorem a correção das estatísticas geradas em cenários de produção.
Passo 3: consumir o produto de dados através de uma aplicação, com acesso programático e produção:
- Relatórios de BI. Os relatórios e os painéis de controlo em lote e quase em tempo real são o grupo mais comum de exemplos de utilização de estatísticas exigidos pelos consumidores de dados. Os relatórios podem exigir acesso a produtos com vários dados para ajudar a facilitar a tomada de decisões. Por exemplo, uma plataforma de dados de clientes requer a consulta programática de produtos de dados de encomendas e de CRM de forma agendada. Os resultados de uma abordagem deste tipo oferecem uma vista holística do cliente aos utilizadores empresariais que consomem os dados.
- Modelo de IA/ML para previsão em lote e em tempo real. Os cientistas de dados usam princípios comuns de MLOps para criar e prestar serviços de modelos de ML que consomem produtos de dados disponibilizados pelas equipas de produtos de dados. Os modelos de AA oferecem capacidades de inferência em tempo real para exemplos de utilização transacionais, como a deteção de fraudes. Da mesma forma, com a análise de dados exploratórios, os consumidores de dados podem enriquecer os dados de origem. Por exemplo, a análise exploratória de dados sobre as vendas e os dados das campanhas de marketing mostra segmentos de clientes demográficos onde se espera que as vendas sejam mais elevadas e, por conseguinte, onde as campanhas devem ser apresentadas.
O que se segue?
- Veja uma implementação de referência da arquitetura de malha de dados.
- Saiba mais acerca do BigQuery.
- Leia mais sobre o Vertex AI.
- Saiba mais sobre a ciência de dados no Dataproc.
- Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.