O Dataplex é uma malha de dados que unifica dados distribuídos e automatiza o gerenciamento e a governança de dados.
O Dataplex permite fazer o seguinte:
- Criar uma malha de dados específica do domínio entre dados armazenados em vários nos projetos do Google Cloud, sem qualquer movimentação de dados.
- Controlar e monitorar os dados de forma consistente com um único conjunto de permissões.
- Descubra e selecione metadados em vários silos usando os recursos de catálogo. Para mais informações, consulte Visão geral do Dataplex Catalog.
- consulte metadados com segurança usando o BigQuery e ferramentas de código aberto; como SparkSQL, Presto e HiveQL.
- Executar tarefas de qualidade de dados e de gerenciamento do ciclo de vida dos dados, inclusive sem servidor Tarefas do Spark.
- (Descontinuado) Analise dados usando ambientes do Spark sem servidor e totalmente gerenciados, com acesso simples a notebooks e consultas SparkSQL.
Por que usar o Dataplex?
As empresas têm dados distribuídos entre data lakes, data warehouses e data marts. Com o Dataplex, é possível fazer o seguinte:
- Descobrir dados
- Selecionar dados
- Unificar dados sem mover dados
- Organizar dados com base nas necessidades da sua empresa
- Gerenciar, monitorar e controlar dados de maneira centralizada
Com o Dataplex, você pode padronizar e unificar metadados, políticas de segurança, governança, classificação e gerenciamento do ciclo de vida dos dados nesses dados distribuídos.
Como o Dataplex funciona
O Dataplex gerencia dados de uma maneira que não exige movimentação de dados ou duplicação. Conforme você identifica novas fontes de dados, o Dataplex coleciona os metadados de dados estruturados e não estruturados, usando verificações de qualidade de dados integradas para melhorar a integridade.
O Dataplex registra automaticamente todos os metadados em um metastore unificado. É possível acessar dados e metadados usando vários serviços e ferramentas incluindo o seguinte:
- Serviços do Google Cloud, como BigQuery, Dataproc Metastore e Data Catalog.
- Ferramentas de código aberto, como Apache Spark e Presto.
Terminologia
O Dataplex abstrai os sistemas de armazenamento de dados subjacentes, usando as seguintes construções:
Lake: um modelo lógico que representa um domínio de dados ou uma unidade de negócios. Para Por exemplo, para organizar os dados com base no uso do grupo, é possível configurar um lake para cada Departamento da empresa (por exemplo, Varejo, Vendas, Finanças).
Zona: um subdomínio em um lake, que é útil para categorizar os dados o seguinte:
- Fase: por exemplo, página de destino, dados brutos, análise de dados selecionados e ciência de dados selecionados.
- Uso: por exemplo, contrato de dados.
- Restrições: por exemplo, controles de segurança e níveis de acesso do usuário.
As zonas são de dois tipos: brutas e selecionadas.
Zona bruta: contém dados no formato bruto e não sujeitos a uma verificação de tipo rigorosa.
Zona selecionada: contém dados limpos, formatados e prontos para análise. Os dados são colunares, particionados pelo Hive e armazenados em arquivos Parquet, Avro, ORC ou tabelas do BigQuery. Os dados são submetidos verificação de tipo, por exemplo, para proibir o uso de arquivos CSV porque eles não têm um desempenho tão bom no acesso ao SQL.
Recurso: mapeia para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos separados do Google Cloud como recursos em um em uma única zona.
Entidade: representa os metadados de dados estruturados e semiestruturados. (tabela) e dados não estruturados (conjunto de arquivos).
Casos de uso comuns
Esta seção descreve casos de uso comuns do Dataplex.
Uma malha de dados centrada no domínio
Nesse tipo de malha de dados, os dados são organizados em vários domínios dentro de uma empresarial, por exemplo, Vendas, Clientes e Produtos. Propriedade dos dados pode ser descentralizado. Você pode se inscrever para receber dados de diferentes domínios. Para por exemplo, cientistas e analistas de dados podem extrair de diferentes domínios para alcançar os objetivos de negócio, como machine learning e Business Intelligence.
No diagrama a seguir, os domínios são representados por data lakes do Dataplex e são de propriedade de produtores de dados separados. A criação é feita pelos próprios produtores, curadoria e controle de acesso nos domínios. Os consumidores de dados podem solicitar acesso aos lakes (domínios) ou zonas (subdomínios) para análise.
Nesse caso, os gestores de dados precisam manter uma visão holística de todos os dados cenário.
Este diagrama inclui os seguintes elementos:
- Dataplex: uma malha de vários domínios de dados.
- Domínio: data lakes para vendas, clientes e dados de produtos.
- Zona em um domínio: para equipes individuais ou para fornecer contratos de dados gerenciados.
- Recursos: dados armazenados em um bucket do Cloud Storage ou um conjunto de dados do BigQuery, que pode ficar em um Google Cloud de dados da sua malha do Dataplex.
É possível estender esse cenário dividindo os dados que estão dentro das zonas em brutos e camadas selecionadas. Você pode realizar essa abordagem criando zonas para cada permutação de um domínio e dados brutos ou selecionados:
- Vendas brutas
- Vendas selecionadas
- Dados brutos dos clientes
- Clientes selecionados
- Produtos brutos
- Produtos selecionados
Classificação de dados com base no nível de preparo
Outro caso de uso comum é quando os dados só podem ser acessados por engenheiros de dados, e, posteriormente, é refinado e disponibilizado para cientistas e analistas de dados. Nesse caso, você pode configurar um lago para ter o seguinte:
- Uma zona bruta para os dados que os engenheiros podem acessar.
- Uma zona selecionada para os dados que está disponível para cientistas e analistas de dados.
A seguir
- Começar a usar o Dataplex
- Criar uma malha de dados
- Criar um lake
- Conheça os recursos do catálogo no Dataplex