Como criar um data lake no Google Cloud Platform

Armazene, processe e analise volumes maciços de dados de maneira econômica e ágil.

Visão geral do data lake do Cloud

Um lugar para coletar e usar todos os seus dados

Inclua seus dados no Google Cloud Platform em estado bruto (estruturados ou não estruturados) e armazene-os separados dos recursos de computação para evitar os dispendiosos modelos de armazenamento local. Elimine a necessidade de pré-processar os dados e de projetar esquemas para lidar com novos tipos de informações. Aproveite os serviços avançados de processamento, análise e machine learning do Google Cloud Platform para ativar casos de uso significativos na sua empresa. Use a mesma infraestrutura de segurança que o Google usa para proteger identidades, aplicativos e dispositivos.

De ingestão a insights

Dados no data lake do GCP

Como enviar dados para seu data lake do GCP

O Google Cloud Platform facilita a transferência dos dados para a nuvem de onde quer que eles estejam e cuida de todos os detalhes, desde a criação de lotes até o streaming. Não importa se você está migrando dados na rede, usando um Transfer Appliance off-line ou capturando streams em tempo real, os produtos e serviços do GCP são dimensionados para atender às suas necessidades, sem gerar complexidade.

Como armazenar dados em escala de petabytes

Como armazenar dados em escala de petabytes

Use o Cloud Storage como o hub central do data lake para aproveitar a consistência forte, o design de alta durabilidade de 99,999999999% e a capacidade de armazenar dados em repouso não vinculados a recursos, como modelos tradicionais locais. As várias classes de armazenamento do Google Cloud Storage também permitem otimizar o custo e a disponibilidade, permitindo a criação de data lakes econômicos em escala de petabytes. Mais importante ainda, os dados armazenados no Google Cloud Storage são facilmente acessíveis a uma ampla variedade de outros produtos do Google Cloud Platform, o que o torna ideal para armazenar recursos de dados de todos os casos de uso.

Processar dados

Processe dados como quiser

Com o data lake no Cloud Storage, você processa os dados da forma que for mais conveniente para a empresa. Aproveite a experiência atual do Hadoop na organização usando o Cloud Dataproc, o serviço Hadoop e Spark totalmente gerenciado do GCP, para criar clusters sob demanda e pagar apenas pelo tempo de execução dos trabalhos. Além disso, explore o Cloud Dataflow, o serviço Apache Beam totalmente gerenciado do GCP, para trabalhar com cargas de trabalho em stream e em lote em uma experiência de processamento de dados sem servidor que elimina as complexidades de provisionamento e gerenciamento.

Armazenamento de dados sem servidor

Armazenamento de dados sem servidor para análises no data lake

Use o BigQuery, o armazenamento de dados sem servidor e em escala de petabytes do GCP, para executar análises nos dados estruturados inclusos no data lake. Aproveite velocidades de consulta impressionantes em grandes volumes de dados para atender às necessidades de relatórios corporativos e inteligência empresarial. Aproveite os recursos de machine learning incorporados que podem ser acessados usando SQL e ofereça suporte a uma cultura baseada em dados na empresa.

Análise avançada usando ML

Análises avançadas usando machine learning

Aproveite o data lake no GCP para realizar experiências de ciência de dados e criar modelos de machine learning baseados em recursos de dados armazenados no Cloud Storage. Use as integrações nativas com os produtos inovadores de IA do Cloud em uma ampla variedade de tarefas, desde coletar insights de recursos de imagem e vídeo até personalizar, implantar e dimensionar modelos próprios de ML com o Cloud Machine Learning Engine.

Como mapear cargas de trabalho locais de data lake do Hadoop em produtos do GCP

Como criar um data lake em nuvem no GCPYESNOIm processingstreaming dataWe useApache BeamWe useApache Spark or KafkaCloud DataflowCloud DataprocCloud DataprocIm doinginteractive dataanalysis orad-hoc queryingWe use Apache Sparkwith interactive webnotebooksAre you interested in keepingthese SQL queries as they are?Cloud Dataproc in combinationwith Jupyter or Zeppelinoptional componentsCloud DataprocNo, Im interested inlearning more about a serverless solution.YESNONo, Im interested inlearning more about a managed solution.BigQueryWe use SQL with Apache Hive,Apache Drill, Impala,Presto or similarCloud DataprocCloud DataprocIm doing ELT/ETLor batch processingWe use MapReduce,Spark, Pig, or HiveWe use Oozie forworkflow orchestrationCloud ComposerAre you interested inkeeping these workflowjobs as they are?Im supportingNoSQL workloadsWe useApache AccumuloCloud DataprocYESNONeed to use coprocessorsor SQL with Apache Phoenix?Cloud DataprocCloud Bigtable We useApache HBaseIm running anApache Hadoopclusteron-premises

Recursos