Cloud Dataproc

Uma maneira mais rápida, fácil e econômica de executar o Apache Spark e o Apache Hadoop

Faça uma avaliação gratuita

Apache Hadoop e Apache Spark nativos da nuvem

O Cloud Dataproc é um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e do Apache Hadoop (páginas em inglês) com mais simplicidade e economia. As operações que antes levavam horas ou dias agora são concluídas em segundos ou minutos. Além disso, com o faturamento por segundo, você paga apenas pelos recursos que usa. O Cloud Dataproc também pode ser facilmente integrado a outros serviços do Google Cloud Platform (GCP), oferecendo uma plataforma completa e avançada de processamento de dados, análise e machine learning.

Hadoop e Spark gerenciados

Processamento de dados rápido e escalonável

Crie rapidamente clusters do Cloud Dataproc e os redimensione a qualquer momento, de três a centenas de nós. Assim, você não precisa se preocupar com a possibilidade de os pipelines de dados se tornarem grandes demais para os clusters. Você gasta mais tempo se concentrando nos insights e menos na infraestrutura: cada ação de um cluster leva menos de 90 segundos em média.

Processamento de dados rápido e escalonável

Preços acessíveis

Por adotar os princípios de preços do Google Cloud Platform, o Cloud Dataproc tem custo baixo e uma estrutura de preços fácil de entender, baseada no uso real e medida por segundo. Além disso, os clusters do Cloud Dataproc podem incluir instâncias preemptivas de baixo custo, bem como descontos por uso contínuo e prolongado. Isso garante clusters avançados a um custo total ainda menor.

Preço acessível

Ecossistema de código aberto

Você pode usar ferramentas, bibliotecas e documentação do Spark e do Hadoop com o Cloud Dataproc. O Cloud Dataproc fornece atualizações frequentes para versões nativas do Spark, Hadoop, Pig e Hive, para que você possa começar sem a necessidade de aprender novas ferramentas ou APIs e mover projetos existentes ou pipelines ETL sem a necessidade de redesenvolvimento.

Ecossistema de código aberto

Recursos do Cloud Dataproc

O Cloud Dataproc é um serviço gerenciado do Apache Spark e do Apache Hadoop. É rápido, fácil de usar e de baixo custo.

Gerenciamento automatizado de clusters
Com os recursos gerenciados de implantação, registro e monitoramento, você se concentra nos seus dados, e não em clusters. Os clusters do Cloud Dataproc são estáveis, escalonáveis e rápidos.
Clusters redimensionáveis
Crie e dimensione clusters rapidamente com vários tipos de máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Escalonamento automático de clusters
O escalonamento automático do Cloud Dataproc fornece um mecanismo para você automatizar o gerenciamento de recursos do cluster. Além disso, ele possibilita a adição e subtração automática de workers (nós) do cluster.
Integração à nuvem
A integração interna com o Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging, Stackdriver Monitoring e AI Hub cria uma plataforma de dados robusta e completa.
Controle de versões
Com o controle de versões de imagens, você pode alternar diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Alta disponibilidade
Execute clusters no modo de alta disponibilidade com vários nós mestres e defina jobs para serem reiniciados em caso de falha.
Segurança empresarial
Quando você cria um cluster do Cloud Dataproc, é possível ativar o modo seguro do Hadoop por meio do Kerberos adicionando uma configuração de segurança. Além disso, o GCP e o Cloud Dataproc oferecem mais recursos de segurança para proteger seus dados. Alguns dos recursos de segurança mais utilizados e específicos do GCP que estão incluídos no Cloud Dataproc são a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês).
Exclusão programada de clusters
Para evitar cobranças por um cluster inativo, use a exclusão programada do Cloud Dataproc. Com ela, é possível excluir um cluster após um período de inatividade especificado, seja em um horário futuro ou após um tempo determinado.
Configuração manual ou automática
O Cloud Dataproc configura o hardware e o software automaticamente, mas também oferece controle manual.
Ferramentas para Desenvolvedores
Há diversas maneiras de gerenciar um cluster, incluindo uma IU da Web fácil de usar, o SDK do Cloud, APIs RESTful e acesso SSH.
Ações de inicialização
Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster é criado.
Componentes opcionais
Use componentes opcionais para instalar e configurar outros elementos no cluster. Eles são integrados aos componentes do Cloud Dataproc e oferecem ambientes totalmente configurados para Zeppelin, Druid, Presto e outros elementos de software de código aberto relacionados ao ecossistema do Apache Hadoop e do Apache Spark.
Imagens personalizadas
Os clusters do Cloud Dataproc podem ser provisionados com uma imagem personalizada que inclui os pacotes pré-instalados do sistema operacional Linux.
Máquinas virtuais flexíveis
Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas para que elas tenham o tamanho ideal para suas necessidades.
Gateway de componentes e acesso em notebook
Com o gateway de componentes, você tem acesso seguro e rápido às interfaces da Web de componentes opcionais e padrão do Cloud Dataproc em execução no cluster.
Modelos de fluxo de trabalho
Os modelos de fluxo de trabalho do Cloud Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Esses modelos são uma configuração reutilizável, que determina um gráfico com informações sobre onde executar jobs.

Preços do Cloud Dataproc

O Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual nas instâncias do Compute Engine usadas no cluster1.

Iowa (us-central1) Oregon (us-west1) Norte da Virgínia (us-east4) Carolina do Sul (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Países Baixos (europe-west4) Zurique (europe-west6) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hong Kong (asia-east2) Taiwan (asia-east1) Tóquio (asia-northeast1) Osaka (asia-northeast2)
Tipo de máquina Preço
Máquinas padrão
1 a 64 CPUs virtuais
Máquinas com grande quantidade de memória
2 a 64 CPUs virtuais
Máquinas com grande quantidade de CPUs
2 a 64 CPUs virtuais
Máquinas personalizadas
Com base no uso de vCPU e memória
Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

1O Cloud Dataproc tem uma pequena cobrança extra por CPU virtual nas instâncias do Compute Engine usadas no cluster enquanto ele está em funcionamento. Os outros recursos usados pelo Cloud Dataproc, como a rede do Compute Engine, BigQuery, Cloud Bigtable, entre outros, são cobrados conforme o uso. Para mais informações, consulte o guia de preços.

Postagens em destaque (todas em inglês)

Leia as postagens mais recentes para entender melhor o processamento de dados de código aberto na nuvem

Destaques do Next ’19

Veja como os clientes usam o Cloud Dataproc para reduzir os custos e tomar decisões orientadas por dados na organização

Recursos mais recentes do Cloud Dataproc
video_youtube
Como os clientes estão migrando o Hadoop para o Google Cloud Platform
video_youtube
Democratização do Dataproc
video_youtube
Google Cloud

Primeiros passos

Aprenda e crie

Ainda não conhece o GCP? Comece a usar qualquer produto do GCP gratuitamente com US$ 300 de crédito.

Precisa de mais ajuda?

Nossos especialistas ajudarão você a criar a solução certa ou encontrar o parceiro ideal para suas necessidades.

Os produtos listados nesta página estão na versão Alfa, Beta ou com acesso antecipado. Para saber mais sobre nossas etapas de lançamento de produtos, clique aqui.

Os produtos de IA do Cloud estão em conformidade com as políticas de SLA listadas neste documento. Eles podem oferecer garantias de latência ou disponibilidade diferentes de outros serviços do Google Cloud.

Enviar comentários sobre…