Dataproc

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar o Apache Spark, o Apache Flink, o Presto e mais de 30 ferramentas e frameworks de código aberto. Use o Dataproc para modernização do data lake, ETL e ciência de dados segura, em escala global, totalmente integrada ao Google Cloud e com custos bem menores.

  • action/check_circle_24px Criado com o Sketch.

    Aberto: crie clusters de código aberto totalmente gerenciados sob demanda e integrados ao metastore do data lake

  • action/check_circle_24px Criado com o Sketch.

    Flexível: serviços nativos e combinados do GCP e do OSS com integrações fortes em toda a plataforma

  • action/check_circle_24px Criado com o Sketch.

    Controlado: possibilita uma ciência de dados de código aberto escalonável, segura e controlada com o Dataproc Hub

  • action/check_circle_24px Criado com o Sketch.

    Seguro: configure a segurança avançada, como Kerberos, Apache Ranger e Autenticação pessoal.

  • action/check_circle_24px Criado com o Sketch.

    Econômico: veja um TCO 57% mais baixo em comparação com data lakes locais com preços por segundo

Vantagens

Modernize o processamento de dados de código aberto

Não importa se você precisa de VMs ou do Kubernetes, de memória extra para Presto ou mesmo de GPUs, o Dataproc pode ajudar a acelerar o processamento e análise de dados ativando ambientes criados sob demanda.

OSS econômico e seguro para a ciência de dados

Com o escalonamento automático, a exclusão de cluster inativo, os preços por segundo, a segurança integrada e mais, o Dataproc Hub pode escalonar de maneira econômica a ciência de dados de código aberto e minimizar o gerenciamento de custos e riscos de segurança.

Segurança, conformidade e governança avançadas

Gerencie e aplique a autorização e autenticação do usuário usando as políticas atuais do Kerberos e do Apache Ranger ou da Autenticação de cluster pessoal. Defina as permissões sem ter que configurar um nó de rede.

Principais recursos

Principais recursos

Software de código aberto de Big Data totalmente gerenciado e automatizado

A implantação totalmente gerenciada, a geração de registros e o monitoramento permitem que você se concentre nos dados e nas análises, não na infraestrutura. Reduza o TCO do gerenciamento do Apache Spark em até 57%. Os cientistas e engenheiros de dados interagem com o Dataproc usando ferramentas conhecidas, como notebooks do Jupyter e do Zeppelin, que podem ser utilizados como modelo no Dataproc Hub. A API Dataproc Jobs facilita a incorporação do processamento de Big Data em aplicativos personalizados, enquanto o Metastore do Dataproc elimina a necessidade de executar seu próprio metastore do Hive ou serviço de catálogo.

Inserir os jobs do Apache Spark em contêineres com o Kubernetes

Crie seus jobs do Apache Spark usando o Dataproc no Kubernetes para usar o Dataproc com o Google Kubernetes Engine (GKE) para fornecer portabilidade e isolamento de jobs.

Segurança empresarial integrada ao Google Cloud

Quando você cria um cluster do Dataproc, é possível ativar o modo seguro do Hadoop por meio do Kerberos ao adicionar uma configuração de segurança. Além disso, alguns dos recursos de segurança específicos do Google Cloud mais usados com Dataproc incluem a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês).

O melhor do código aberto com o melhor do Google Cloud

Com o Dataproc, você usa as ferramentas de código aberto, os algoritmos e as linguagens de programação usadas atualmente, mas facilita a aplicação deles em conjuntos de dados na nuvem. Ao mesmo tempo, o Dataproc tem integração imediata com o restante do ecossistema de análise, banco de dados e IA do Google Cloud. Os cientistas e engenheiros de dados podem acessar os dados rapidamente e criar um aplicativo de dados que conecta o Dataproc ao BigQuery, AI Platform, Cloud Spanner, Pub/Sub ou Data Fusion. 

Veja todos os recursos

O que há de novo

O que há de novo

Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Documentação

Documentação

APIs e bibliotecas
Ações de inicialização do Dataproc

Acrescente outros projetos de OSS nos seus clusters do Dataproc com ações de inicialização pré-instaladas.

APIs e bibliotecas
Conectores de código aberto

Bibliotecas e ferramentas para garantir a interoperabilidade do Apache Hadoop.

Casos de uso

Casos de uso

Caso de uso
Migre seus clusters do Hadoop e Spark para a nuvem

Empresas estão migrando os próprios clusters locais do Apache Hadoop e Spark para o Dataproc com objetivo de gerenciar custos e descobrir o poder da escala elástica. Com o Dataproc, as empresas contam com um cluster personalizado totalmente gerenciado que pode realizar escalonamento automático para apoiar qualquer job de processamento de dados ou análise. 

Caso de uso
Ciência de dados no Dataproc

Crie seu ambiente de ciência de dados ideal ao ativar um cluster do Dataproc personalizado. Integre software de código aberto, como notebooks do Apache Spark, NVIDIA RAPIDS e Juypter, com os serviços de IA do Google Cloud e GPUs para ajudar a acelerar o machine learning e o desenvolvimento de IA. 

Todos os recursos

Todos os recursos

Clusters redimensionáveis Crie e escalone clusters rapidamente com vários tipos de máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Como fazer o escalonamento automático de clusters O escalonamento automático do Dataproc fornece um mecanismo para automatização do gerenciamento de recursos do cluster. Além disso, possibilita a adição e subtração automáticas de nós de trabalho do cluster.
Integração à nuvem A integração interna com o Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring e AI Hub cria uma plataforma de dados mais robusta e completa.
Controle de versões Com o controle de versões de imagens, é possível alternar diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Altamente disponível Execute clusters no modo de alta disponibilidade com vários nós mestres e defina jobs para serem reiniciados em caso de falha. Dessa forma, você garante a alta disponibilidade dos seus clusters e jobs.
Exclusão programada de clusters Para evitar a cobrança de um cluster inativo, é possível usar a exclusão programada do Dataproc, que oferece opções para excluir um cluster depois de um período ocioso especificado do cluster, em um futuro estabelecido, ou após um período determinado.
Configuração manual ou automática O Dataproc configura o hardware e o software automaticamente, mas também oferece controle manual.
Ferramentas para Desenvolvedores Há várias maneiras de gerenciar um cluster, incluindo uma IU da Web fácil de usar, o SDK do Cloud, as APIs RESTful e o acesso SSH.
Ações de inicialização Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster é criado.
Componentes opcionais Use componentes opcionais para instalar e configurar outros componentes no cluster. Eles são integrados aos componentes do Dataproc e oferecem ambientes totalmente configurados para Zeppelin, Druid, Presto e outros elementos de software de código aberto relacionados ao ecossistema do Apache Hadoop e do Apache Spark.
Imagens personalizadas Os clusters do Dataproc podem ser provisionados com uma imagem personalizada que inclui os pacotes pré-instalados do sistema operacional Linux.
Máquinas virtuais flexíveis Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas que os deixam do tamanho ideal para suas necessidades.
Gateway de componentes e acesso a notebooks O Gateway de componentes do Dataproc permite acesso seguro e rápido às interfaces da Web de componentes opcionais e padrão do Dataproc em execução no cluster.
Modelos de fluxo de trabalho Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Esses modelos são uma configuração reutilizável, que determina um gráfico com informações sobre onde executar jobs.

Preços

Preços

Os preços do Dataproc baseiam-se no número de vCPUs e no tempo de execução. Embora os preços exibam a taxa por hora, cobramos por segundo para que você só pague pelo que usa.

Por exemplo: seis clusters (1 mestre + 5 workers) de 4 CPUs cada executados por 2 horas, custariam US$ 0,48.  Cobrança do Dataproc = Nº de vCPUs * horas * preço do Dataproc = 24 * 2 * US$ 0,01 = US $0,48

Veja a página de preços para mais detalhes.

Parceiros

Parceiros

O Dataproc se integra com parceiros essenciais para complementar seus investimentos e conjuntos de habilidades atuais.