O que é data lake?

Um data lake é um repositório centralizado, escalonável e seguro projetado para armazenar, processar e analisar grandes quantidades de dados estruturados, semiestruturados e não estruturados no formato nativo. Ao contrário do armazenamento tradicional, um data lake permite que as empresas façam a ingestão de dados em qualquer velocidade e volume, fornecendo o contexto de "fidelidade total" necessário para análises avançadas e inteligência artificial (IA).

Visão geral do data lake: escalonamento para tempo real e IA

Um data lake fornece uma plataforma escalonável e segura que permite às empresas ingerir qualquer dado de qualquer fonte no local, na nuvem ou na borda, sem as restrições de esquemas predefinidos.

Para organizações orientadas por dados, o valor de um data lake está na capacidade de oferecer suporte a: 

  • Processamento de dados sem servidor: envie jobs sem precisar criar, configurar ou gerenciar clusters
  • Armazenamento de fidelidade total: armazene qualquer volume de dados no formato bruto, garantindo que os cientistas de dados tenham o contexto original necessário para experimentos complexos
  • Ingestão em tempo real: lide com dados de streaming em escala para oferecer suporte a análises em tempo real e aplicativos de IA responsivos

Data lake x data warehouse: evolução para um lakehouse aberto

Embora os data lakes e data warehouses sejam tradicionalmente vistos como complementares, o Google Cloud está diminuindo essa lacuna com a arquitetura Open Lakehouse. 

Um data warehouse tradicional é otimizado para relatórios de negócios repetíveis e análise SQL estruturada . Por outro lado, um data lake é excelente para lidar com os dados brutos e diversos necessários para o machine learning.

O Google Cloud permite uma abordagem de "lakehouse aberto" com o Lakehouse nativo de IA e multicloud. Isso permite executar análises e IA no lake e no warehouse usando formatos abertos como o Apache Iceberg, oferecendo o desempenho de um warehouse com a flexibilidade de um lake.

Criado para cientistas de dados: aceleração do ciclo de vida de dados para IA

Para os cientistas de dados, um data lake é mais do que apenas armazenamento: é um campo de testes experimental. O Google Cloud oferece um valor único ao integrar o data lake diretamente ao ciclo de vida de dados para IA:

  • Desenvolvimento interativo: use os notebooks do BigQuery Studio para desenvolver aplicativos Apache Spark usando suas ferramentas e linguagens favoritas, como Python, R ou SQL.
  • Governança unificada: governe seus dados, modelos de IA e agentes com o Knowledge Catalog, fornecendo contexto aos seus agentes a partir dos seus recursos de dados estruturados, não estruturados e SaaS.
  • Engenharia de contexto: aproveite o contexto bruto armazenado no seu data lake para melhorar a precisão dos modelos de IA generativa e dos agentes de dados autônomos

Resolva seus desafios comerciais com o Google Cloud

Clientes novos recebem US$ 300 em créditos para usar no Google Cloud.
Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Casos de uso estratégicos de data lake

Ao fornecer a base para análise e inteligência artificial, os data lakes ajudam empresas de todos os setores a passar dos dados à ação com mais rapidez.

Mídia e entretenimento

 Melhore os sistemas de recomendação analisando grandes volumes de dados brutos de interação do usuário, o que leva a maior engajamento e receita de publicidade

Serviços financeiros

Use modelos de machine learning com dados de mercado em tempo real para gerenciar os riscos da carteira no momento em que as condições do mercado mudam.

IA e agentes empresariais

Crie e governe agentes de IA fornecendo acesso a uma camada semântica unificada e a um catálogo governado de recursos de dados

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos, tudo isso sem custo financeiro.

Google Cloud