O que é data lake?

O data lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados. Ele pode armazenar dados em seu formato nativo e processar qualquer variedade desses dados, ignorando os limites de tamanho.

Saiba mais sobre como modernizar seu data lake no Google Cloud.

Visão geral do data lake

Um data lake fornece uma plataforma segura e escalonável que permite às empresas: ingerir quaisquer dados de qualquer sistema em qualquer velocidade, mesmo se os dados vierem de sistemas locais, em nuvem ou edge computing; armazena qualquer tipo ou volume de dados com total fidelidade; processa dados em tempo real ou em modo de lote; e analisa dados usando SQL, Python, R, ou qualquer outra linguagem, dados de terceiros ou aplicativo analítico.

Data lake vs. armazenamento de dados: data lake também é definido pelo que não é. Não é apenas armazenamento e não é o mesmo que um armazenamento de dados.

Embora data lakes e armazenamentos de dados armazenem dados em alguma capacidade, cada um é otimizado para diferentes usos. Considere essas ferramentas complementares em vez de concorrentes, e as empresas podem precisar de ambas. Como um ponto de comparação, os armazenamentos de dados são geralmente ideais para o tipo de relatórios e análises repetíveis que são comuns nas práticas comerciais, como relatórios de vendas mensais, rastreamento de vendas por região ou tráfego de site. 

Você precisa de um data lake?

Ao determinar se sua empresa precisa de um data lake, tenha em mente os tipos de dados com os quais você está trabalhando, o que quer fazer com os dados, a complexidade do seu processo de aquisição de dados e sua estratégia para gerenciamento e governança de dados, bem como as ferramentas e conjuntos de habilidades existentes em sua organização.

As empresas hoje também estão começando a olhar para o valor dos data lakes através de uma lente diferente. Um data lake não é apenas sobre armazenar dados com fidelidade total. Também é sobre os usuários conseguirem uma compreensão mais profunda das situações dos negócios porque eles têm mais contexto do que nunca, o que lhes permite acelerar os experimentos de análise.

Desenvolvido principalmente para lidar com grandes volumes de Big Data, as empresas podem mover normalmente dados brutos por meio de lote e/ou stream para um data lake sem transformá-los. As empresas contam com data lakes de formas estratégicas para ajudar a:

  • reduzir o custo total da propriedade;
  • simplificar o gerenciamento de dados;
  • se preparar para incorporar inteligência artificial e machine learning; 
  • acelerar as análises;
  • melhorar a segurança e a governança.

 

Alguns casos de uso de data lake

Como os data lakes fornecem a base para análise e inteligência artificial, ele está sendo usado pelas empresas de todos os setores para aumentar a receita, economizar dinheiro e reduzir riscos.

Mídia e entretenimento

Uma empresa que oferece streaming de música, rádio e podcasts pode aumentar a receita melhorando seu sistema de recomendação, de modo que os usuários consumam mais seus serviços, permitindo que a empresa venda mais anúncios.

Telecomunicações

Uma empresa multinacional de telecomunicações pode economizar dinheiro criando modelos de propensão de desligamento de usuários que reduzem o desligamento de clientes.

Serviços financeiros

Uma empresa de investimento pode contar com data lakes para impulsionar o machine learning, para que possa gerenciar os riscos da carteira assim que os dados do mercado em tempo real estiverem acessíveis.