Cloud Dataproc

Uma maneira mais rápida, fácil e econômica de executar o Apache Spark e o Apache Hadoop

Faça uma avaliação gratuita

Apache Hadoop e Apache Spark nativos da nuvem

O Cloud Dataproc é um serviço de nuvem rápido, fácil de usar e totalmente gerenciado para executar clusters do Apache Spark e do Apache Hadoop de maneira mais simples e econômica. As operações que antes levavam horas ou dias agora levam segundos ou minutos. Além disso, com o faturamento por segundo, você paga apenas pelos recursos que usa. O Cloud Dataproc também pode ser facilmente integrado a outros serviços do Google Cloud Platform (GCP), oferecendo uma plataforma completa e eficiente para processamento de dados, análise e machine learning.

Hadoop e Spark gerenciados

Processamento de dados rápido e escalonável

Crie rapidamente clusters do Cloud Dataproc e redimensione-os a qualquer momento, de três a centenas de nós. Assim, você não precisa se preocupar com a possibilidade de seus pipelines de dados se tornarem grandes demais para seus clusters. Você tem mais tempo para se concentrar em insights, com menos tempo perdido em infraestrutura - cada ação de um cluster leva menos de 90 segundos em média.

Processamento de dados rápido e escalonável

Preço acessível

Adotando os princípios de preços do Google Cloud Platform, o Cloud Dataproc tem custo baixo e uma estrutura de preços fácil de entender, baseada no uso real e medida por segundo. Além disso, os clusters do Cloud Dataproc podem incluir instâncias preemptivas de baixo custo, oferecendo clusters robustos a um custo total ainda menor.

Preço acessível

Ecossistema de código aberto

Você pode usar ferramentas, bibliotecas e documentação do Spark e do Hadoop com o Cloud Dataproc. O Cloud Dataproc fornece atualizações frequentes para versões nativas do Spark, Hadoop, Pig e Hive, para que você possa começar sem a necessidade de aprender novas ferramentas ou APIs e mover projetos existentes ou pipelines ETL sem a necessidade de redesenvolvimento.

Ecossistema de código aberto

Recursos do Cloud Dataproc

O Cloud Dataproc é um serviço gerenciado do Apache Spark e do Apache Hadoop. É rápido, fácil de usar e de baixo custo.

Gerenciamento automatizado de cluster
Com os recursos gerenciados de implantação, registro e monitoramento, você se concentra nos seus dados, e não em clusters. Os clusters do Cloud Dataproc são estáveis, escalonáveis e rápidos.
Clusters redimensionáveis
Crie e escalone clusters rapidamente com vários tipos de máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Integração
A integração interna com Cloud Storage, BigQuery, Bigtable, Stackdriver Logging e Stackdriver Monitoring cria uma plataforma de dados robusta e completa.
Controle de versões
Com o controle de versões de imagens, você pode alternar diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Alta disponibilidade
Execute clusters com vários nós mestres e defina jobs para serem reiniciados em caso de falha. Dessa forma, você garante a alta disponibilidade dos seus clusters e jobs.
Ferramentas para Desenvolvedores
Há diversas maneiras de gerenciar um cluster, inclusive uma interface da Web fácil de usar, o SDK do Cloud, APIs REST e acesso SSH.
Ações de inicialização
Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster for criado.
Configuração manual ou automática
O Cloud Dataproc configura o hardware e o software automaticamente em clusters, além de permitir o controle manual.
Máquinas virtuais flexíveis
Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas para que elas tenham o tamanho ideal para suas necessidades.

Cloud Dataflow ou Cloud Dataproc: qual deve ser usado?

O Cloud Dataproc e o Cloud Dataflow podem ser usados no processamento de dados, e alguns dos recursos de lote e de streaming são os mesmos. Como você decide qual produto é mais indicado para o ambiente?
Dataproc X Dataflow

Cloud Dataproc

O Cloud Dataproc é bom para ambientes que dependem de componentes específicos do ecossistema de Big Data do Apache:

  • Ferramentas/pacotes
  • Pipelines
  • Conjuntos de habilidades de recursos atuais

Cloud Dataflow

O Cloud Dataflow normalmente é a opção preferida para ambientes totalmente novos:

  • Menos sobrecarga operacional
  • Abordagem unificada para desenvolvimento de pipelines em lote ou por streaming
  • Usa o Apache Beam
  • Compatível com portabilidade de pipeline no Cloud Dataflow, Apache Spark e Apache Flink como ambientes de execução

Cargas de trabalho recomendadas

CARGAS DE TRABALHO CLOUD DATAPROC CLOUD DATAFLOW
Processamento de stream (ETL)
Processamento em lote (ETL)
Processamento iterativo e notebooks
Machine learning com Spark ML
Pré-processamento para machine learning (com AI Platform)

Preços do Cloud Dataproc

O Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual nas instâncias do Compute Engine usadas no cluster1.

Iowa (us-central1) Oregon (us-west1) Norte da Virgínia (us-east4) Carolina do Sul (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Holanda (europe-west4) Zurique (europe-west6) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hong Kong (asia-east2) Taiwan (asia-east1) Tóquio (asia-northeast1) Osaka (asia-northeast2)
Tipo de máquina Preço
Máquinas padrão
1 a 64 CPUs virtuais
Máquinas com alta memória
2 a 64 CPUs virtuais
Máquinas com alta CPU
2 a 64 CPUs virtuais
Máquinas personalizadas
Com base no uso de vCPU e memória
Se você fizer pagamentos em uma moeda que não seja o dólar americano, serão aplicados na sua moeda os preços listados na página SKUs do Cloud Platform.

1 O Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual nas instâncias do Compute Engine usadas no cluster enquanto o cluster está operacional. Recursos adicionais usados pelo Cloud Dataproc, como a rede do Compute Engine, o BigQuery, Cloud Bigtable, entre outros, são cobrados mediante uso. Para mais informações, consulte o guia de preços.

Enviar comentários sobre…