Aspectos gerais do Dataplex

O Dataplex é uma malha de dados que unifica dados distribuídos e automatiza o gerenciamento e a governança de dados para esses dados.

O Dataplex permite que você faça o seguinte:

  • Crie uma malha de dados específica do domínio para os dados armazenados em vários projetos do Google Cloud, sem precisar mover os dados.
  • Controlar e monitorar os dados de forma consistente com um único conjunto de permissões.
  • Descubra e selecione metadados em vários silos usando recursos de catálogo. Para mais informações, consulte Visão geral do Data Catalog.
  • Consulte metadados com segurança usando o BigQuery e ferramentas de código aberto, como SparkSQL, Presto e HiveQL.
  • Execute tarefas de gerenciamento do ciclo de vida e qualidade de dados, incluindo tarefas sem servidor do Spark.
  • Explore dados usando ambientes Spark totalmente gerenciados e sem servidor com acesso simples a notebooks e consultas do SparkSQL.

Por que usar o Dataplex?

As empresas têm dados distribuídos entre data lakes, data warehouses e data marts. Com o Dataplex, é possível fazer o seguinte:

  • Descobrir dados
  • Selecionar dados
  • Unifique dados sem movimentar os dados
  • Organize os dados com base nas necessidades da sua empresa
  • Gerencie, monitore e controle dados de forma centralizada

O Dataplex permite padronizar e unificar metadados, políticas de segurança, governança, classificação e gerenciamento do ciclo de vida de dados em todos esses dados distribuídos.

imagem

Como o Dataplex funciona

O Dataplex gerencia os dados de uma maneira que não exige movimentação ou duplicação de dados. À medida que você identifica novas fontes de dados, o Dataplex coleta os metadados de dados estruturados e não estruturados usando verificações integradas de qualidade de dados para melhorar a integridade.

O Dataplex registra automaticamente todos os metadados em um metastore unificado. É possível acessar dados e metadados usando vários serviços e ferramentas, incluindo:

  • Serviços do Google Cloud, como BigQuery, Dataproc Metastore e Data Catalog.
  • Ferramentas de código aberto, como Apache Spark e Presto.

Terminologia

O Dataplex abstrai os sistemas de armazenamento de dados subjacentes usando as seguintes construções:

  • Lago: uma construção lógica que representa um domínio de dados ou uma unidade de negócios. Por exemplo, para organizar os dados com base no uso do grupo, configure um lake para cada departamento (por exemplo, varejo, vendas, finanças).

  • Zona: um subdomínio em um lake, útil para categorizar os dados da seguinte maneira:

    • Fase: por exemplo, análise de dados brutos, selecionados e selecionados.
    • Uso: por exemplo, contrato de dados.
    • Restrições: por exemplo, controles de segurança e níveis de acesso do usuário.

    Há dois tipos de zonas: brutas e selecionadas.

    • Zona bruta: contém dados que estão no formato bruto e não estão sujeitos a verificação de tipo rigorosa.

    • Zona selecionada: contém dados limpos, formatados e prontos para análise. Os dados são particionados em colunas, particionados pelo Hive e armazenados em arquivos Parquet, Avro, Orc ou tabelas do BigQuery. Os dados passam por uma verificação de tipo, por exemplo, para proibir o uso de arquivos CSV, porque eles não têm um bom desempenho no acesso SQL.

  • Recurso: mapeia dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos separados do Google Cloud como recursos em uma única zona.

  • Entidade: representa metadados de dados estruturados e semiestruturados (tabela) e dados não estruturados (conjunto de arquivos).

Casos de uso comuns

Nesta seção, descrevemos casos de uso comuns do Dataplex.

Uma malha de dados centrada no domínio

Com esse tipo de malha de dados, os dados são organizados em vários domínios dentro de uma empresa, por exemplo, vendas, clientes e produtos. A propriedade dos dados pode ser descentralizada. É possível se inscrever para receber dados de diferentes domínios. Por exemplo, cientistas e analistas de dados podem extrair de diferentes domínios para alcançar objetivos de negócios, como machine learning e Business Intelligence.

No diagrama a seguir, os domínios são representados pelos lagos do Dataplex e pertencem a produtores de dados separados. Os produtores de dados são proprietários de criação, curadoria e controle de acesso. Os consumidores de dados podem solicitar acesso aos lakes (domínios) ou zonas (subdomínios) para análise.

Como criar uma malha de dados

Nesse caso, os administradores de dados precisam ter uma visão holística do cenário inteiro dos dados.

Este diagrama inclui os seguintes elementos:

  • Dataplex: uma malha de vários domínios de dados.
  • Domínio: lakes para dados de vendas, clientes e produtos.
  • Zona dentro de um domínio: para equipes individuais ou para fornecer contratos de dados gerenciados.
  • Recursos: dados armazenados em um bucket do Cloud Storage ou em um conjunto de dados do BigQuery, que podem existir em um projeto separado do Google Cloud da malha do Dataplex.

É possível ampliar esse cenário dividindo os dados que estão nas zonas em camadas brutas e selecionadas. É possível realizar essa abordagem criando zonas para cada permutação de um domínio e dados brutos ou selecionados:

  • Dados brutos de vendas
  • Vendas selecionadas
  • Dados brutos de clientes
  • Clientes selecionados
  • Produtos brutos
  • Produtos selecionados

Níveis de dados com base na prontidão

Outro caso de uso comum é quando os dados estão acessíveis apenas para engenheiros de dados e depois são refinados e disponibilizados para cientistas e analistas de dados. Nesse caso, é possível configurar um lake para ter o seguinte:

  • Uma zona bruta para os dados que os engenheiros podem acessar.
  • Uma zona selecionada para os dados disponíveis aos cientistas e analistas de dados.

Lakes e zonas

A seguir