Dataproc

Lance uma solução pré-configurada que unifica data lakes e data warehouses para armazenar, processar e analisar dados estruturados e não estruturados. Faça uma avaliação gratuita.

Ir para

Dataproc

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar o Apache Hadoop, o Apache Spark, o Apache Flink, o Presto e mais de 30 ferramentas e frameworks de código aberto. Use o Dataproc para modernização do data lake, ETL e ciência de dados segura, em escala global, totalmente integrada ao Google Cloud e com custos bem menores.

Teste o Dataproc gratuitamente

Flexível: use opções sem servidor, ou gerencie clusters no Google Compute e no Kubernetes. Implante uma solução recomendada pelo Google que unifica data lakes e data warehouses para armazenar, processar e analisar dados estruturados e não estruturados.
Aberto: execute análises de dados de código aberto em escala com segurança de nível empresarial
Inteligente: permita que os usuários de dados se integrem a Vertex AI, BigQuery e Dataplex
Seguro: configure a segurança avançada, como Kerberos, Apache Ranger e Autenticação pessoal
Econômico: veja um TCO 54% mais baixo em comparação com data lakes locais com preços por segundo

Ícone do Dataproc no centro de um anel de logotipos: Apache Spark, Presto, Hive, Jupyter, Hadoop, Flink e Apache Pig

VÍDEO

O Dataproc é compatível com OSSs conhecidos, como Apache Spark, Presto, Flink e muito mais.

1:23

Vantagens

Modernize o processamento de dados de código aberto

OSS inteligente e sem complicações para ciência de dados

Permita que cientistas e analistas de dados realizem jobs de ciência de dados com integrações nativas com o BigQuery, Dataplex, a Vertex AI e notebooks do OSS, como o JupyterLab.

Segurança empresarial integrada ao Google Cloud

Recursos de segurança, como a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK). Ative o modo seguro do Hadoop por meio do Kerberos adicionando uma configuração de segurança.

Principais recursos

Software de código aberto de Big Data totalmente gerenciado e automatizado

Com implantação, geração de registros e monitoramento sem servidor, você se concentra nos seus dados e análises, e não na infraestrutura. Reduza o TCO do gerenciamento do Apache Spark em até 54%. Permita que cientistas e engenheiros de dados criem e treinem modelos cinco vezes mais rápidos que notebooks tradicionais usando a integração com o Vertex AI Workbench. A API Dataproc Jobs facilita a incorporação do processamento de Big Data em aplicativos personalizados, enquanto o Metastore do Dataproc elimina a necessidade de executar seu próprio metastore do Hive ou serviço de catálogo.

Inserir os jobs do Apache Spark em contêineres com o Kubernetes

Crie seus jobs do Apache Spark usando o Dataproc no Kubernetes para usar o Dataproc com o Google Kubernetes Engine (GKE) para fornecer portabilidade e isolamento de jobs.

Segurança empresarial integrada ao Google Cloud

Quando você cria um cluster do Dataproc, é possível ativar o modo seguro do Hadoop por meio do Kerberos ao adicionar uma configuração de segurança. Além disso, alguns dos recursos de segurança específicos do Google Cloud mais usados com Dataproc incluem a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês)

O melhor do código aberto com o melhor do Google Cloud

Com o Dataproc, você usa as ferramentas de código aberto, os algoritmos e as linguagens de programação usadas atualmente, mas facilita a aplicação de tudo isso em conjuntos de dados na nuvem. Ao mesmo tempo, o Dataproc tem integração imediata com o restante do ecossistema de análise, banco de dados e IA do Google Cloud. Os cientistas e engenheiros de dados podem acessar os dados rapidamente e criar um aplicativo de dados que conecta o Dataproc ao BigQuery, Vertex AI, Spanner, Pub/Sub, ou Data Fusion.

Ver todos os recursos

Miniatura de um edifício bancário com uma planilha à esquerda e um smartphone à direita

3:39

Demonstração: veja como o Dataproc e o Cloud Storage ajudam a acelerar o processamento de empréstimo

Clientes

Aprenda com clientes que usam o Dataproc

Blog post

A Broadcom está modernizando seu data lake com o Dataproc e possibilitando o gerenciamento flexível de dados

Leitura de 5 minutos

Case study

O Dataproc oferece acesso de alto desempenho e baixa manutenção a dados não estruturados em escala.

Leitura de 8 minutos

Video

O Grupo Vodafone migra 600 servidores Apache Hadoop locais para a nuvem.

47:17

Case study

O Twitter mudou do Hadoop local para o Google Cloud para armazenar e consultar dados com mais economia.

49:57

Case study

A Pandora migrou mais de 7 PB de dados do Hadoop local para o Google Cloud para ajudar a escalonar e reduzir custos.

50:51

Case study

A ativação e redução dos clusters do Dataproc ajudaram a METRO a reduzir de 30% a 50% seus custos de infraestrutura.

Leitura de 5 minutos

Veja todos os clientes

O que há de novo

O Spark sem servidor já está com disponibilidade geral. Inscreva-se para ter acesso a outros serviços do Spark no Google Cloud.

Blog post

Jobs do Spark sem servidor simplificados para todos os usuários de dadosSaiba mais

Blog post

Arquiteturas convergentes: como juntar data lakes e data warehousesLeia a postagem do blog

Marca de seleção de práticas recomendadas

Blog post

Novo guia de práticas recomendadas do DataprocSaiba mais

Blog post

Os novos recursos do Dataproc em GA ampliam as capacidades de ciência de dados e MLSaiba mais

Documentação

Google Cloud Basics

Spark sem servidor

Envie jobs do Spark com provisionamento e escalonamento automáticos. Para mais detalhes, acesse o link do guia de início rápido abaixo.

Saiba mais

APIs & Libraries

Ações de inicialização do Dataproc

Acrescente outros projetos de OSS nos seus clusters do Dataproc com ações de inicialização pré-instaladas.

Saiba mais

APIs & Libraries

Conectores de código aberto

Bibliotecas e ferramentas para garantir a interoperabilidade do Apache Hadoop.

Saiba mais

APIs & Libraries

Modelos de fluxo de trabalho do Dataproc

A API WorkflowTemplates do Dataproc oferece um mecanismo flexível e fácil de usar para gerenciar e executar fluxos de trabalho.

Saiba mais

Não encontrou o que procura?

Confira toda a documentação do produto

Notas de lançamento

Leia sobre as atualizações mais recentes do Dataproc.

Casos de uso

Caso de uso

Migre seus clusters do Hadoop e Spark para a nuvem

Empresas estão migrando os próprios clusters locais do Apache Hadoop e Spark para o Dataproc com objetivo de gerenciar custos e descobrir o poder da escala elástica. Com o Dataproc, as empresas contam com um cluster personalizado totalmente gerenciado que pode realizar escalonamento automático para apoiar qualquer job de processamento de dados ou análise.

Best practice

Guia de migração do Apache Spark

Não reescreva o código do Spark no Google Cloud.

Saiba mais

Best practice

Migre os dados do HDFS para o Google Cloud

Saiba quando e como migrar seus dados locais do HDFS para o Google Cloud Storage.

Saiba mais

Best practice

Como migrar os controles de segurança do local para o Dataproc

Migre os controles de segurança existentes para o Dataproc e ajude a alcançar o compliance da empresa e do setor.

Saiba mais

Caso de uso

Ciência de dados no Dataproc

Crie seu ambiente de ciência de dados ideal ao ativar um cluster do Dataproc personalizado. Integre software de código aberto, como notebooks do Apache Spark, NVIDIA RAPIDS e Juypter, com os serviços de IA do Google Cloud e GPUs para ajudar a acelerar o machine learning e o desenvolvimento de IA.

Tutorial

Use o Dataproc e o Apache Spark ML para machine learning

Integre o Dataproc com outros serviços do Google Cloud para criar uma experiência de ciência de dados completa.

Saiba mais

Best practice

A TI controla a ciência de dados de código aberto com o Dataproc Hub

Saiba como o Dataproc Hub fornece ao cientista de dados todas as ferramentas de código aberto necessárias em um ambiente de TI controlado e formas de controlar custos.

Saiba mais

Tutorial

Dataproc encontra o TensorFlow no YARN

Aprenda como orquestrar o TensorFlow distribuído usando o TonY.

Saiba mais

Confira todos os guias técnicos

Todos os recursos

Spark sem servidor	Implante aplicativos e pipelines do Spark que escalonam automaticamente sem qualquer provisionamento ou ajuste de infraestrutura manual.
Clusters redimensionáveis	Crie e escalone clusters rapidamente com vários tiposde máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Como fazer o escalonamento automático de clusters	O escalonamento automático do Dataproc fornece um mecanismo para automatização do gerenciamento de recursos do cluster. Além disso, possibilita a adição e subtração automáticas de nós de trabalho do cluster.
Integração à nuvem	Integração direta com o Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging e Cloud Monitoring, fornecendo dados mais completos e robustos plataforma.
Configuração manual ou automática	O Dataproc configura o hardware e o software automaticamente, mas também oferece controle manual.
Ferramentas para desenvolvedores	Há várias maneiras de gerenciar um cluster, incluindo uma interface da Web fácil de usar, o SDK do Cloud, as APIs RESTful e o acesso SSH.
Ações de inicialização	execute ações de inicialização para instalar ou personalizar as configurações e bibliotecas necessárias quando o cluster for criado.
Componentes opcionais	Use componentes opcionais para instalar e configurar outros componentes no cluster. Eles são integrados aos componentes do Dataproc e oferecem ambientes totalmente configurados para Zeppelin, Presto e outros elementos de software de código aberto relacionados ao ecossistema do Apache Hadoop e do Apache Spark.
Contêineres e imagens personalizadas	O Spark sem servidor do Dataproc pode ser provisionado com contêineres personalizados do Docker. Os clusters do Dataproc podem ser provisionados com uma imagem personalizada que inclui os pacotes pré-instalados do sistema operacional Linux.
Máquinas virtuais flexíveis	Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas que os deixam do tamanho ideal para suas necessidades.
Modelos de fluxo de trabalho	Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Esses modelos são uma configuração reutilizável, que determina um gráfico com informações sobre onde executar jobs.
Gerenciamento automatizado de políticas	Padronize as políticas de segurança, custo e infraestrutura em uma frota de clusters. É possível criar políticas para gerenciamento de recursos, segurança ou rede para envolvidos no projeto. Você também pode facilitar o uso de imagens, componentes, metastores e outros serviços periféricos corretos para os usuários, permitindo que você gerencie a frota de clusters e as políticas do Spark sem servidor no futuro.
Alertas inteligentes	Os alertas recomendados do Dataproc permitem que os clientes ajustem os limites dos alertas pré-configurados para receber alertas sobre clusters ociosos e descontrolados, jobs, clusters superutilizados e muito mais. Os clientes podem personalizar ainda mais esses alertas e até mesmo criar recursos avançados de gerenciamento de jobs e clusters. Esses recursos permitem que os clientes gerenciem a frota em grande escala.
Dataproc no Google Distributed Cloud (GDC)	O Dataproc on GDC permite executar o Spark no dispositivo GDC Edge Appliance no seu data center. Agora é possível usar os mesmos aplicativos Spark no Google Cloud e nos dados confidenciais do seu data center.
Metastore multirregional do Dataproc	O Dataproc Metastore é um metastore Hive (HMS) totalmente gerenciado, altamente disponível com controle de acesso refinado. O metastore multirregional do Dataproc oferece DR ativo-ativo e resiliência contra interrupções regionais.

Preços

Os preços do Dataproc baseiam-se no número de vCPUs e no tempo de execução. Embora os preços exibam a taxa por hora, cobramos por segundo para que você só pague pelo que usa.

Por exemplo: um cluster com 6 nós (1 principal + 5 workers) de 4 CPUs, cada um executado por 2 horas, custaria US $0,48. Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

Veja a página de preços para mais detalhes.

Ver preços

Parceiros

O Dataproc se integra com parceiros essenciais para complementar seus investimentos e conjuntos de habilidades atuais.