Dataproc

Uma maneira mais rápida, fácil e econômica de executar o Apache Spark e o Apache Hadoop

Faça uma avaliação gratuita

Apache Hadoop e Apache Spark nativos da nuvem

O Dataproc é um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e do Apache Hadoop com mais simplicidade e economia. As operações que antes levavam horas ou dias agora são concluídas em segundos ou minutos. Além disso, com o faturamento por segundo, você paga apenas pelos recursos que usa. O Dataproc também se integra facilmente a outros serviços do Google Cloud Platform (GCP) e oferece uma plataforma completa e poderosa para processamento de dados, análises e aprendizado de máquina.

Hadoop e Spark gerenciados

Processamento de dados rápido e escalonável

Crie rapidamente clusters do Dataproc e os redimensione a qualquer momento, de três a centenas de nós. Assim, você não precisa se preocupar com a possibilidade de os pipelines de dados se tornarem grandes demais para os clusters. Você gasta mais tempo se concentrando nos insights e menos na infraestrutura: cada ação de um cluster leva menos de 90 segundos em média.

Processamento de dados rápido e escalonável

Preço acessível

O Dataproc adota os princípios de preços do Google Cloud Platform, tem custo baixo e é fácil de entender. A estrutura de preços é baseada no uso efetivo, medido em segundos. Além disso, os clusters do Dataproc podem incluir instâncias preemptivas de baixo custo, bem como descontos por uso contínuo e prolongado. Isso garante clusters avançados a um custo total ainda menor.

Preço acessível

Ecossistema de código aberto

É possível usar as ferramentas, as bibliotecas e a documentação do Spark e do Hadoop com o Dataproc. O Dataproc fornece atualizações frequentes para versões nativas do Spark, Hadoop, Pig e Hive para que você possa começar sem a necessidade de aprender novas ferramentas ou APIs e mover projetos existentes ou pipelines ETL sem a necessidade de redesenvolvimento.

Ecossistema de código aberto

Recursos do Dataproc

O Dataproc é um serviço gerenciado do Apache Spark e do Apache Hadoop. É rápido, fácil de usar e tem baixo custo.

Gerenciamento automatizado de cluster
Com os recursos gerenciados de implantação, geração de registros e monitoramento, você se concentra nos seus dados, e não em clusters. Os clusters do Dataproc são estáveis, escalonáveis e rápidos.
Clusters redimensionáveis
Crie e escaloneclusters rapidamente com vários tipos de máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Escalonamento automático de clusters
O escalonamento automático do Dataproc fornece um mecanismo para você automatizar o gerenciamento de recursos do cluster. Além disso, ele possibilita a adição e subtração automática de workers (nós) do cluster.
Integração à nuvem
A integração interna ao Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring e AI Hub cria uma plataforma de dados robusta e completa.
Controle de versões
Com o controle de versões de imagens, você pode alternar diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Alta disponibilidade
Execute clusters no modo de alta disponibilidadecom vários nós mestres e defina jobs para serem reiniciados em caso de falha. Dessa forma, você garante a alta disponibilidade dos seus clusters e jobs.
Segurança empresarial
Quando você cria um cluster do Dataproc, é possível ativar o modo seguro do Hadoop por meio do Kerberos adicionando uma configuração de segurança. Além disso, o GCP e o Dataproc oferecem mais recursos de segurança para proteger seus dados. Alguns dos recursos de segurança mais utilizados e específicos do GCP que estão incluídos no Dataproc são a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês).
Exclusão programada de cluster
Para evitar cobranças por um cluster inativo, use a exclusão programada do Cloud Dataproc. Com ela, é possível excluir um cluster após um período de inatividade especificado, seja em um horário futuro ou após um tempo determinado.
Configuração manual ou automática
O Dataproc configura o hardware e o software automaticamente, mas também oferece controle manual.
Ferramentas para desenvolvedores
Há diversas maneiras de gerenciar um cluster, incluindo uma IU da Web fácil de usar, o SDK do Cloud, APIs RESTful e acesso SSH.
Ações de inicialização
Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster é criado.
Componentes opcionais
Use componentes opcionais para instalar e configurar outros componentes no cluster. Eles são integrados aos componentes do Dataproc e oferecem ambientes totalmente configurados para Zeppelin, Druid, Presto e outros elementos de software de código aberto relacionados ao ecossistema do Apache Hadoop e do Apache Spark.
Imagens personalizadas
Os clusters do Dataproc podem ser provisionados com uma imagem personalizada que inclui os pacotes pré-instalados do sistema operacional Linux.
Máquinas virtuais flexíveis
Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas para que elas tenham o tamanho ideal para suas necessidades.
Gateway de componentes e acesso em notebook
Com o gateway de componentes, você tem acesso seguro e rápido às interfaces da Web de componentes opcionais e padrão do Dataproc em execução no cluster.
Modelos de fluxo de trabalho
Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Esses modelos são uma configuração reutilizável, que determina um gráfico com informações sobre onde executar jobs.

Preço do Dataproc

O Dataproc gera uma pequena cobrança adicional por CPU virtual nas instâncias do Compute Engine usadas no cluster1.

Postagens em destaque (todas em inglês)

Leia as postagens mais recentes para entender melhor o processamento de dados de código aberto na nuvem

Destaques do Next ’19

Veja como os clientes usam o Dataproc para reduzir os custos e tomar decisões orientadas por dados na organização

Recursos mais recentes do Cloud Dataproc
video_youtube
Como os clientes estão migrando o Hadoop para o Google Cloud Platform
video_youtube
Google Cloud

Primeiros passos

Aprenda e crie

Ainda não conhece o GCP? Comece a usar qualquer produto do GCP gratuitamente com US$ 300 de crédito.

Precisa de mais ajuda?

Nossos especialistas ajudarão você a criar a solução certa ou encontrar o parceiro ideal para suas necessidades.

Os produtos listados nesta página estão em Alfa, Beta ou acesso antecipado. Para saber mais sobre nossas etapas de lançamento de produtos, clique aqui.

Os produtos de IA do Cloud estão em conformidade com as políticas de SLA listadas aqui. Eles oferecem garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.