O gerenciamento de dados é uma parte importante para potencializar a análise empresarial e criar experiências excepcionais para os clientes. Você provavelmente já ouviu falar dos termos data lake e data warehouse, mas é difícil saber qual deles se encaixa no seu projeto. Esses dois sistemas lidam com os dados de maneiras diferentes. Um data lake é como um grande pool de dados brutos em que você não define a finalidade imediatamente. Um data warehouse é mais parecido com uma biblioteca de dados organizados e filtrados que estão prontos para tarefas específicas. Conhecer as diferenças ajuda a escolher a ferramenta certa para suas necessidades de dados.
A principal diferença entre esses dois sistemas é como eles lidam com a estrutura e o uso dos dados. Um data lake é para dados brutos e não estruturados, enquanto um data warehouse é para dados estruturados e processados.
Recurso | Data lake | Data warehouse |
Tipo de dado | Todos os dados (brutos, estruturados, não estruturados) | Dados processados e estruturados |
Finalidade | Ainda não definido | Definido e específico |
Usuários | Cientistas de dados, engenheiros de dados | Analistas de dados, analistas de Business Intelligence |
Acessibilidade | Altamente flexível, fácil de mudar | Mais difícil de mudar, mais rígido |
Em processamento | Esquema na leitura (definido quando usado) | Esquema na gravação (definido antes de salvar) |
Benefícios |
|
|
Recurso
Data lake
Data warehouse
Tipo de dado
Todos os dados (brutos, estruturados, não estruturados)
Dados processados e estruturados
Finalidade
Ainda não definido
Definido e específico
Usuários
Cientistas de dados, engenheiros de dados
Analistas de dados, analistas de Business Intelligence
Acessibilidade
Altamente flexível, fácil de mudar
Mais difícil de mudar, mais rígido
Em processamento
Esquema na leitura (definido quando usado)
Esquema na gravação (definido antes de salvar)
Benefícios
Imagine que você está criando um jogo para dispositivos móveis. Você quer rastrear cada clique de botão de cada usuário. Você ainda não sabe quais cliques são importantes para sua próxima atualização. Você pode enviar todos esses eventos JSON brutos diretamente para um data lake. Depois, seus cientistas de dados podem executar um script para encontrar padrões nesses dados brutos.
Outro exemplo são os sensores de IoT. Se você tiver milhares de sensores enviando dados de temperatura a cada segundo, poderá despejar esses dados brutos em um lake. Você terá um histórico completo de tudo o que aconteceu sem se preocupar em formatar primeiro.
Pense em uma empresa de varejo que precisa monitorar as vendas. Todas as noites, o sistema recebe todos os pedidos do dia, limpa os endereços, calcula o imposto e salva tudo em um data warehouse. Um gerente pode gerar um relatório para saber exatamente quantas camisas azuis foram vendidas em Chicago. Os dados estão organizados e prontos para um gráfico.
Um banco também pode usar um data warehouse para rastrear contas. Eles precisam saber o saldo exato de cada cliente a qualquer momento. Ele não quer registros brutos, mas sim uma tabela estruturada que mostre todas as transações com clareza.
Os cientistas de dados geralmente precisam criar um modelo de IA que possa detectar reservas fraudulentas em tempo real. Como os dados vêm de vários lugares, como registros de sites, eventos de apps para dispositivos móveis e parceiros terceirizados, um data lake funciona melhor para treinar modelos de IA.
Comece configurando um pipeline para enviar todos os eventos brutos para o Cloud Storage. Isso inclui arquivos JSON desorganizados do site e registros binários do app para dispositivos móveis. Você não precisa se preocupar em formatar os dados ainda, porque o Cloud Storage foi criado para esse tipo de escala.
Para que os dados sejam úteis para o modelo de IA, é necessário limpá-los. Você pode usar o Google Cloud Service para Apache Spark para executar um job do Apache Spark sem servidor. Isso permite transformar milhões de registros brutos em um formato estruturado sem precisar gerenciar servidores ou clusters.
Agora que os dados estão prontos, você pode inseri-los em uma ferramenta de machine learning. Como os dados brutos originais ainda estão no lake, você sempre pode voltar e analisar os detalhes "ocultos" que podem ajudar a melhorar ainda mais o modelo.
Ao usar um data lake, você pode armazenar tudo a baixo custo e processar apenas o que é necessário quando for a hora de criar o modelo.
Agora, vamos analisar um caso de uso de ciência de dados para varejistas. Você pode prever quantos casacos de inverno a empresa vai vender no mês seguinte. Como os dados de vendas já estão limpos e armazenados em um banco de dados, é recomendável usar um data warehouse para essa tarefa.
Comece com o BigQuery, que atua como o data warehouse central de uma empresa. Os dados de vendas já estão organizados em tabelas com colunas para datas, preços e IDs de produtos. Como os dados já estão estruturados, você não precisa gastar tempo limpando-os.
Escreva uma consulta SQL para conferir os últimos cinco anos de vendas de inverno. Mesmo com bilhões de linhas de dados, o BigQuery encontra a resposta em segundos. Essa velocidade permite que você teste ideias diferentes e refine a previsão rapidamente.
Quando a previsão estiver pronta, você poderá usar uma ferramenta integrada para criar um painel. A equipe de marketing agora pode ver exatamente quantos casacos precisa encomendar. Como o BigQuery é sem servidor, a empresa paga apenas pelas consultas executadas, o que mantém os custos baixos.
Nesse caso de uso, o data warehouse é a melhor ferramenta porque fornece respostas rápidas e confiáveis a perguntas específicas de negócios usando dados que já estão em um formato utilizável.
A escolha entre um data lake e um data warehouse depende do que você está tentando criar. Se você tem muitos dados brutos e quer analisá-los com código, comece com um data lake. Se você tem perguntas específicas sobre negócios e quer relatórios rápidos e confiáveis, um data warehouse provavelmente é a melhor opção. Muitas empresas usam os dois juntos para aproveitar o melhor dos dois mundos.
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos, tudo isso sem custo financeiro.