Dataproc

O Dataproc agiliza, facilita e traz segurança ao processamento de dados e análises de código aberto na nuvem.

Fazer uma avaliação gratuita do Dataproc
  • action/check_circle_24px Criado com o Sketch.

    Ative um cluster de escalonamento automático em 90 segundos nas máquinas personalizadas

  • action/check_circle_24px Criado com o Sketch.

    Crie Apache Spark, Apache Hadoop, Presto e outros clusters de OSS totalmente gerenciados

  • action/check_circle_24px Criado com o Sketch.

    Pague somente pelos recursos que você usar e reduza o custo total de propriedade de OSS

  • action/check_circle_24px Criado com o Sketch.

    Criptografia e segurança unificada incorporada em todo cluster

  • action/check_circle_24px Criado com o Sketch.

    Acelere a ciência de dados com clusters personalizados

Crie clusters de OSS personalizados em máquinas personalizadas mais rápido

Se você precisa de memória extra para o Presto ou GPUs para o machine learning do Apache Spark, o Dataproc pode ajudar a acelerar seu processamento de dados e análises ao criar um cluster personalizado em 90 segundos.

Gestão de cluster fácil e acessível

Com a exclusão de clusters ociosos, escalonamento automático, preços por segundo e mais, o Dataproc pode ajudar a reduzir o custo total de propriedade de OSS para que você possa concentrar seu tempo e recursos em outros lugares. 

Segurança incorporada por padrão

A criptografia por padrão ajuda a garantir que nenhuma parte dos dados fique desprotegida. Com JobsAPI e Component Gateway, é possível definir permissões para clusters de Cloud IAM, sem ter que configurar nós de rede ou gateway. 

Principais recursos

Gerenciamento automatizado de clusters

Com os recursos gerenciados de implantação, registro e monitoramento, você se concentra nos seus dados, e não em clusters. Os clusters do Dataproc são estáveis, escalonáveis e rápidos.

Jobs de OSS em contêineres

Quando você cria seus jobs de OSS (por exemplo, Apache Spark) no Dataproc, é possível contentorizá-los rapidamente com o Kubernetes e implantá-los em qualquer lugar onde houver um cluster do GKE ativo. 

Segurança corporativa

Quando você cria um cluster do Dataproc, é possível ativar o modo seguro do Hadoop por meio do Kerberos ao adicionar uma configuração de segurança. Além disso, alguns dos recursos de segurança específicos do Google Cloud mais usados com Dataproc incluem a criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês)

Veja todos os recursos

Documentação

APIs e bibliotecas
Ações de inicialização do Dataproc

Acrescente outros projetos do OSS nos seus clusters do Dataproc com ações de inicialização pré-instaladas.

APIs e bibliotecas
Conectores de código aberto

Bibliotecas e ferramentas para garantir a interoperabilidade do Apache Hadoop.

Casos de uso

Caso de uso
Migre seus clusters do Hadoop e Spark para a nuvem

Empresas estão migrando os próprios clusters locais do Apache Hadoop e Spark para o Dataproc com objetivo de gerenciar custos e descobrir o poder da escala elástica. Com o Dataproc, as empresas contam com um cluster personalizado totalmente gerenciado que pode realizar escalonamento automático para apoiar qualquer job de processamento de dados ou análise. 

Caso de uso
Ciência de dados no Dataproc

Crie seu ambiente de ciência de dados ideal ao ativar um cluster do Dataproc personalizado. Integre software de código aberto, como notebooks do Apache Spark, NVIDIA RAPIDS e Juypter, com os serviços de IA do Google Cloud e GPUs para ajudar a acelerar o machine learning e o desenvolvimento de IA. 

Todos os recursos

Clusters redimensionáveis Crie e dimensione clusters rapidamente com vários tipos de máquinas virtuais, tamanhos de disco, número de nós e opções de rede.
Como fazer o escalonamento automático de clusters O escalonamento automático do Dataproc fornece um mecanismo para automatização do gerenciamento de recursos do cluster. Além disso, possibilita a adição e subtração automáticas de nós de trabalho do cluster.
Integração à nuvem A integração interna com o Cloud Storage, BigQuery, Bigtable, Cloud Logging, Cloud Monitoring e AI Hub cria uma plataforma de dados robusta e completa.
Controle de versões Com o controle de versões de imagens, é possível alternar diferentes versões do Apache Spark, do Apache Hadoop e de outras ferramentas.
Altamente disponível Execute clusters no modo de alta disponibilidade com vários nós mestres e defina jobs para serem reiniciados em caso de falha. Dessa forma, você garante a alta disponibilidade dos seus clusters e jobs.
Exclusão programada de cluster Para evitar a cobrança de um cluster inativo, é possível usar a exclusão programada do Dataproc, que oferece opções para excluir um cluster depois de um período ocioso especificado do cluster, em um prazo futuro definido, ou depois de um período determinado.
Configuração manual ou automática O Dataproc configura o hardware e o software automaticamente, mas também oferece controle manual.
Ferramentas para Desenvolvedores Há várias maneiras de gerenciar um cluster, incluindo uma IU da Web fácil de usar, o SDK do Cloud, APIs RESTful e acesso SSH.
Ações de inicialização Execute ações de inicialização para instalar ou personalizar configurações e bibliotecas necessárias quando o cluster é criado.
Componentes opcionais Use componentes opcionais para instalar e configurar outros componentes no cluster. Eles são integrados aos componentes do Dataproc e oferecem ambientes totalmente configurados para Zeppelin, Druid, Presto e outros elementos de software de código aberto relacionados ao ecossistema do Apache Hadoop e do Apache Spark.
Imagens personalizadas Os clusters do Dataproc podem ser provisionados com uma imagem personalizada que inclui os pacotes pré-instalados do sistema operacional Linux.
Máquinas virtuais flexíveis Os clusters podem usar tipos de máquinas personalizados e máquinas virtuais preemptivas para que elas tenham o tamanho ideal para suas necessidades.
Gateway de componentes e acesso a notebooks O Gateway de componentes do Dataproc permite acesso seguro e rápido às interfaces da Web de componentes opcionais e padrão do Dataproc em execução no cluster.
Modelos de fluxo de trabalho Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Esses modelos são uma configuração reutilizável, que determina um gráfico com informações sobre onde executar jobs.

Preços

Os preços do Dataproc baseiam-se no número de vCPUs e no seu tempo de execução. Embora os preços exibam a taxa por hora, cobramos por segundo para que você só pague pelo que usa. Veja a página de preços para mais detalhes

Parceiros

O Dataproc se integra com parceiros essenciais para complementar seus investimentos e conjuntos de capacidades existentes.