Cloud Dataproc

Serviço gerenciado rápido, fácil de usar e de baixo custo para Spark e Hadoop

Teste grátis

Serviço gerenciado de Spark e Hadoop

Use o Google Cloud Dataproc, um serviço de Apache Hadoop, Apache Spark, Apache Pig e Apache Hive para processar facilmente grandes volumes de dados com baixo custo. Controle custos, criando rapidamente clusters gerenciados de qualquer tamanho e desativando cada um deles quando concluir. O Cloud Dataproc se integra com produtos do Google Cloud Platform, oferecendo uma plataforma de processamento de dados completa e robusta.

Hadoop e Spark gerenciados

Processamento de dados rápido e escalável

Crie rapidamente clusters do Cloud Dataproc e redimensione-os a qualquer momento, de três a centenas de nós, eliminando a preocupação com o aumento de clusters em decorrência de pipelines de dados. Com ações que duram menos de 90 segundos para executar no cluster, você vai passar mais tempo pensando em novos insights e menos tempo pensando em infraestrutura.

Processamento de dados rápido e escalável

Preço acessível

Com a adoção de políticas de preços do Google Cloud Platform, o Cloud Dataproc tem baixo custo e uma estrutura de preços de fácil entendimento, tendo como base o uso real, medido em minutos. Além disso, os clusters do Cloud Dataproc agregam instâncias de preferências de compra de baixo custo, oferecendo clusters robustos a um custo total ainda menor.

Preço acessível

Ecossistema de código aberto

O ecossistema Spark e Hadoop oferece ferramentas, bibliotecas e documentação que podem ser utilizadas com o Cloud Dataproc. Graças à oferta de versões nativas e atualizadas do Spark, do Hadoop, do Pig e do Hive, é possível dar os primeiros passos sem precisar aprender novas ferramentas ou APIs, além de mover projetos já existentes ou pipelines ETL dispensando o redesenvolvimento.

Ecossistema de código aberto

Já pensou nisso?

O Cloud Platform fornece ainda mais escalabilidade, eficiência e simplicidade em processamentos de dados críticos e cenários analíticos. Se você usa Hive no Hadoop (ou SparkSQL), convém adotar o Google BigQuery, um serviço analítico SQL sob demanda com um desempenho incrível. Se você programa pipelines de transformação de dados com Spark ou MapReduce, convém usar o Google Cloud Dataflow, um serviço totalmente gerenciado que elimina o árduo trabalho exigido por outras ferramentas e executa diversos padrões de processamento de dados, inclusive ETL, lote e processamento de streaming de dados.

Google Cloud Dataflow

Recursos do Cloud Dataproc

O Google Cloud Dataproc é um serviço gerenciado de Spark e Hadoop. É rápido, fácil de usar e de baixo custo.

Gerenciamento automatizado de cluster
Os recursos de implementação gerenciada, registro e monitoramento permitem que você se concentre em seus dados, e não em clusters. Os clusters serão estáveis, escaláveis e rápidos.
Clusters redimensionáveis
Clusters podem ser criados e redimensionados rapidamente com diversos tipos de máquinas virtuais, dimensões de discos, quantidades de nós e opções de rede.
Integrado
Integração interna com Cloud Storage, BigQuery, Bigtable, Stackdriver Logging e Stackdriver Monitoring criando uma plataforma de dados robusta e completa.
Controle de versão
O controle de versão de imagem permite que você alterne entre diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Ferramentas do desenvolvedor
Há diversas maneiras de gerenciar um cluster, inclusive uma interface da Web fácil de usar, o SDK do Google Cloud, as APIs RESTful e o acesso SSH.
Ações de inicialização
Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster for criado.
Configuração manual ou automática
O Cloud Dataproc configura o hardware e software automaticamente em clusters, além de permitir o controle manual.
Máquinas virtuais flexíveis
Os clusters podem usar tipos de máquinas personalizadas e máquinas virtuais preemptivas para atender às necessidades de dimensionamento.

Preço do Cloud Dataproc

O uso do Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual em instâncias do Compute Engine usadas no seu cluster1.

Iowa Oregon Virgínia do Norte Carolina do Sul Bélgica Londres Sydney Taiwan Tóquio
Tipo de máquina Preço
Máquinas padrão
1-64 CPUs virtuais
Máquinas com alta memória
2-64 CPUs virtuais
Máquinas com alta CPU
2-64 CPUs virtuais
Máquinas personalizadas
Com base no uso de vCPU e memória

1 O uso do Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual em instâncias do Compute Engine usadas em seu cluster enquanto ele está em operação. Recursos adicionais usados pelo Cloud Dataproc, como rede do Compute Engine, BigQuery, Cloud Bigtable, entre outros, são cobrados mediante uso. Para mais informações sobre preços, consulte o guia de preços.

Monitore seus recursos de onde você estiver

Instale o app do Google Cloud Console para ajudar você a gerenciar seus projetos.