Cloud Dataproc

Uma maneira mais rápida, fácil e econômica de executar o Apache Spark e o Apache Hadoop

Avaliação gratuita

Apache Hadoop nativo em nuvem e Apache Spark

O Cloud Dataproc é um serviço de nuvem totalmente gerenciado, rápido e fácil de usar. Ele executa os clusters do Apache Spark e do Apache Hadoop de maneira mais simples e econômica. As operações que antes levavam horas ou dias agora levam segundos ou minutos. Além disso, por meio do faturamento por segundo, você paga apenas pelos recursos que usa. O Cloud Dataproc também pode ser facilmente integrado a outros serviços do Google Cloud Platform (GCP), oferecendo uma plataforma completa e eficiente para processamento de dados, análise e machine learning.

Hadoop e Spark gerenciados

Processamento de dados rápido e escalonável

Crie rapidamente clusters do Cloud Dataproc e redimensione-os a qualquer momento, de três a centenas de nós. Assim, você não precisa se preocupar com a possibilidade de seus canais de dados se tornarem grandes demais para seus clusters. Com ações que duram menos de 90 segundos para executar no cluster, você vai passar mais tempo pensando em novos insights e menos tempo pensando em infraestrutura.

Processamento de dados rápido e escalável

Preço acessível

Adotando os princípios de preços do Google Cloud Platform, o Cloud Dataproc tem custo baixo e uma estrutura de preços fácil de entender, baseada no uso real e medida por segundo. Além disso, os clusters do Cloud Dataproc podem incluir instâncias preemptivas de baixo custo. Você tem acesso a clusters robustos a um custo total ainda menor.

Preço acessível

Ecossistema de código aberto

O ecossistema Spark e Hadoop oferece ferramentas, bibliotecas e documentação que podem ser utilizadas com o Cloud Dataproc. Graças a versões nativas e frequentemente atualizadas do Spark, do Hadoop, do Pig e do Hive, você pode começar sem precisar aprender novas ferramentas ou APIs. Além disso, é possível mover projetos ou canais ETL existentes sem redesenvolvimento.

Ecossistema de código aberto

Recursos do Cloud Dataproc

Google Cloud Dataproc é um serviço gerenciado de Apache Spark e Apache Hadoop. É rápido, fácil de usar e de baixo custo.

Gerenciamento automatizado de cluster
Com os recursos de implantação gerenciada, registro e monitoramento, você pode se concentrar nos seus dados, e não em clusters. Os clusters serão estáveis, escalonáveis e rápidos.
Clusters redimensionáveis
Clusters podem ser criados e redimensionados rapidamente com diversos tipos de máquinas virtuais, tamanhos de discos, quantidades de nós e opções de rede.
Integrado
Integração interna com Cloud Storage, BigQuery, Bigtable, Stackdriver Logging e Stackdriver Monitoring, criando uma plataforma de dados robusta e completa.
Versões
Com o controle de versão de imagem, você pode alternar entre diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Altamente disponível
Execute clusters com vários nós mestres e defina jobs para serem reiniciados em caso de falha. Dessa forma, você garante a alta disponibilidade dos seus clusters e jobs.
Ferramentas para desenvolvedores
Há diversas maneiras de gerenciar um cluster, inclusive uma interface da Web fácil de usar, o Google Cloud SDK, as APIs RESTful e o acesso SSH.
Ações de inicialização
Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster for criado.
Configuração manual ou automática
O Cloud Dataproc configura o hardware e o software automaticamente em clusters, além de permitir o controle manual.
Máquinas virtuais flexíveis
Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas para atender às suas necessidades.

Cloud Dataflow X Cloud Dataproc: qual devo usar?

Cloud Dataproc e Cloud Dataflow podem ser usados no processamento de dados, e há uma sobreposição no lote e nos recursos de streaming. Como você decide qual produto é mais indicado para o ambiente?
Dataproc X Dataflow

Cloud Dataproc

O Cloud Dataproc é bom para ambientes que dependam de componentes específicos do ecossistema de Big Data do Apache:

  • ferramentas/pacotes
  • canais
  • conjuntos de habilidades de recursos existentes

Cloud Dataflow

O Cloud Dataflow normalmente é a opção preferida para ambientes ecologicamente corretos:

  • menos sobrecarga operacional
  • abordagem unificada para desenvolvimento de canais em lote ou por streaming
  • usa o Apache Beam
  • aceita portabilidade de canal no Cloud Dataflow, no Apache Spark e no Apache Flink como ambientes de execução

Cargas de trabalho recomendadas

CARGAS DE TRABALHO CLOUD DATAPROC CLOUD DATAFLOW
Processamento de stream (ETL)
Processamento em lote (ETL)
Processamento iterativo e notebooks
Machine learning com Spark ML
Pré-processamento para machine learning (com o Cloud ML Engine)

Preço do Cloud Dataproc

O uso do Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual em instâncias do Compute Engine usadas no seu cluster1.

Iowa (us-central1) Órgeon (us-west1) Virgínia do Norte (us-east4) Carolina do Sul (us-east1) Montréal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Holanda (europe-west4) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hong Kong (asia-east2) Taiwan (asia-east1) Tóquio (asia-northeast1)
Tipo de máquina Preço
Máquinas padrão
1 a 64 CPUs virtuais
Máquinas com alta memória
2 a 64 CPUs virtuais
Máquinas com alta CPU
2 a 64 CPUs virtuais
Máquinas personalizadas
Com base no uso de vCPU e memória
Se você fizer pagamentos em uma moeda que não seja USD, os preços listados na página Cloud Platform SKUs serão aplicados na sua moeda.

1 O uso do Cloud Dataproc gera uma pequena cobrança adicional por CPU virtual em instâncias do Compute Engine usadas em seu cluster enquanto ele está em operação. Recursos adicionais usados pelo Cloud Dataproc, como rede do Compute Engine, BigQuery, Cloud Bigtable, entre outros, são cobrados mediante uso. Para mais informações sobre preços, consulte o guia de preços.

Enviar comentários sobre…