O Dataproc é um serviço Spark e Hadoop gerenciado que permite aproveitar ferramentas de dados de origem para processamento em lote, consultas, streaming e machine learning. A automação do Dataproc ajuda a criar clusters rapidamente, gerenciá-los com facilidade e economizar dinheiro, desativando os clusters quando não são necessários. Com menos tempo e dinheiro gastos com administração, você pode se concentrar nas suas tarefas e dados.
Por que usar o Dataproc?
Quando comparado com produtos tradicionais no local e serviços de nuvem da concorrência, o Dataproc tem diversas vantagens exclusivas para clusters de três a centenas de nodes:
- Baixo custo: o preço do Dataproc é apenas um centavo por hora por CPU virtual no cluster, além dos outros recursos do Cloud Platform utilizados. Além do baixo preço, os clusters do Dataproc incluem instâncias preemptivas que têm preços mais baixos de computação, o que reduz os custos ainda mais. Em vez de arredondar o uso para a hora mais próxima, o Dataproc cobra apenas o que você realmente usa, com um faturamento por minuto e um período mínimo de um minuto.
- Super-rápido: sem usar o Dataproc, pode levar de cinco a 30 minutos para os clusters do Spark e Hadoop serem criados no local ou por meio de provedores IaaS. Por comparação, os clusters do Dataproc são rápidos para iniciar, dimensionar e encerrar, com cada uma dessas operações levando, em média, até 90 segundos. Isso significa que você passa menos tempo esperando por clusters e mais tempo trabalhando com dados.
- Integrado. O Dataproc tem integração integrada com outros serviços do Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, para que você tenha mais do que apenas um cluster do Spark ou do Hadoop, mas uma plataforma de dados completa. Por exemplo, você pode usar o Dataproc para extrair facilmente terabytes de dados de registro brutos diretamente no BigQuery para relatórios de negócios.
- Gerenciado: use os clusters do Spark e Hadoop sem a ajuda de um administrador ou de software especial. É fácil interagem com clusters e jobs do Spark ou do Hadoop por meio da console do Google Cloud, SDK Cloud ou REST do Dataproc API. Quando você terminar de usar um cluster, basta desativá-lo para não gastar dinheiro em um cluster inativo. Não é preciso se preocupar com a perda de dados, porque o Dataproc está integrado ao Cloud Storage, ao BigQuery e ao Cloud Bigtable.
- Simples e familiar: Não é necessário aprender novas ferramentas ou APIs para usar o Dataproc, o que facilita mover os projetos existentes para o Dataproc sem redesenvolvimento. O Spark, Hadoop, Pig e Hive são atualizados com frequência, para aumentar a sua produtividade.
O que está incluído no Dataproc?
Para ver uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e das versões do conector do Google Cloud Platform compatíveis com o Dataproc, consulte a lista de versões do Dataproc.
Primeiros passos com o Dataproc
Para começar a usar o Dataproc, consulte os guias de início rápido do Dataproc. Você pode acessar o Dataproc das seguintes maneiras:
- pela REST API
- usando o Cloud SDK
- Como usar a IU do Dataproc
- Com as bibliotecas de cliente do Cloud