O que é data lake?
O data lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados. Ele pode armazenar dados em seu formato nativo e processar qualquer variedade desses dados, ignorando os limites de tamanho.
Saiba mais sobre como modernizar seu data lake no Google Cloud.
Pronto para começar? Clientes novos recebem US$ 300 em créditos para usar no Google Cloud.
Visão geral do data lake
Um data lake fornece uma plataforma segura e escalonável que permite às empresas: ingerir quaisquer dados de qualquer sistema em qualquer velocidade, mesmo se os dados vierem de sistemas locais, em nuvem ou edge computing; armazena qualquer tipo ou volume de dados com total fidelidade; processa dados em tempo real ou em modo de lote; e analisa dados usando SQL, Python, R, ou qualquer outra linguagem, dados de terceiros ou aplicativo analítico.
Data lake vs. armazenamento de dados: data lake também é definido pelo que não é. Não é apenas armazenamento e não é o mesmo que um armazenamento de dados.
Embora data lakes e armazenamentos de dados armazenem dados em alguma capacidade, cada um é otimizado para diferentes usos. Considere essas ferramentas complementares em vez de concorrentes, e as empresas podem precisar de ambas. Como um ponto de comparação, os armazenamentos de dados são geralmente ideais para o tipo de relatórios e análises repetíveis que são comuns nas práticas comerciais, como relatórios de vendas mensais, rastreamento de vendas por região ou tráfego de site.
Resolva seus desafios mais difíceis com o Google Cloud
Você precisa de um data lake?
Ao determinar se sua empresa precisa de um data lake, tenha em mente os tipos de dados com os quais você está trabalhando, o que quer fazer com os dados, a complexidade do seu processo de aquisição de dados e sua estratégia para gerenciamento e governança de dados, bem como as ferramentas e conjuntos de habilidades existentes em sua organização.
As empresas hoje também estão começando a olhar para o valor dos data lakes através de uma lente diferente. Um data lake não é apenas sobre armazenar dados com fidelidade total. Também é sobre os usuários conseguirem uma compreensão mais profunda das situações dos negócios porque eles têm mais contexto do que nunca, o que lhes permite acelerar os experimentos de análise.
Desenvolvido principalmente para lidar com grandes volumes de Big Data, as empresas podem mover normalmente dados brutos por meio de lote e/ou stream para um data lake sem transformá-los. As empresas contam com data lakes de formas estratégicas para ajudar a:
- reduzir o custo total da propriedade;
- simplificar o gerenciamento de dados;
- se preparar para incorporar inteligência artificial e machine learning;
- acelerar as análises;
- melhorar a segurança e a governança.
Alguns casos de uso de data lake
Mídia e entretenimento
Uma empresa que oferece streaming de música, rádio e podcasts pode aumentar a receita melhorando seu sistema de recomendação, de modo que os usuários consumam mais seus serviços, permitindo que a empresa venda mais anúncios.
Telecomunicações
Uma empresa multinacional de telecomunicações pode economizar dinheiro criando modelos de propensão de desligamento de usuários que reduzem o desligamento de clientes.
Serviços financeiros
Uma empresa de investimento pode contar com data lakes para impulsionar o machine learning, para que possa gerenciar os riscos da carteira assim que os dados do mercado em tempo real estiverem acessíveis.
Produtos e serviços relacionados
O Google Cloud oferece um pacote de serviços de escalonamento automático que permite criar um data lake que se integra com seus aplicativos, habilidades e investimentos em TI existentes. Isso inclui Dataflow e Cloud Data Fusion para ingestão de dados, Cloud Storage para armazenamento e Dataproc e BigQuery para processamento de dados e análises.