O Dataproc é um serviço Spark e Hadoop gerido que lhe permite tirar partido das ferramentas de dados de código aberto para processamento em lote, consultas, streaming e aprendizagem automática. A automatização do Dataproc ajuda a criar clusters rapidamente, a geri-los facilmente e a poupar dinheiro desativando os clusters quando não precisar deles. Com menos tempo e dinheiro gastos na administração, pode focar-se nos seus trabalhos e dados.
Vantagens do Dataproc
Em comparação com os produtos tradicionais no local e os serviços na nuvem concorrentes, o Dataproc tem várias vantagens únicas para clusters de três a centenas de nós:
- Baixo custo: o Dataproc tem um preço de apenas 0,01 € por CPU virtual no seu cluster por hora, além dos outros recursos da Cloud Platform que usa. Além deste preço baixo, os clusters do Dataproc podem incluir instâncias preemptíveis com preços de computação mais baixos, o que reduz ainda mais os seus custos. Em vez de arredondar a sua utilização para a hora mais próxima, o Dataproc cobra-lhe apenas o que realmente usa com a faturação por segundo e um período de faturação mínimo de um minuto.
- Super rápido: sem usar o Dataproc, pode demorar entre 5 e 30 minutos a criar clusters do Spark e do Hadoop no local ou através de fornecedores de IaaS. Em comparação, os clusters do Dataproc são rápidos de iniciar, dimensionar e encerrar, com cada uma destas operações a demorar 90 segundos ou menos, em média. Isto significa que pode passar menos tempo à espera de clusters e mais tempo a trabalhar diretamente com os seus dados.
- Integrado: o Dataproc tem integração incorporada com outros serviços da Google Cloud Platform, como o BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, para que tenha mais do que apenas um cluster do Spark ou Hadoop: tem uma plataforma de dados completa. Por exemplo, pode usar o Dataproc para ETL de terabytes de dados de registo não processados diretamente no BigQuery para relatórios empresariais.
- Gerido: use clusters Spark e Hadoop sem a ajuda de um administrador ou software especial. Pode interagir facilmente com clusters e tarefas do Spark ou Hadoop através da consola, do Cloud SDK ou da API REST do Dataproc. Google Cloud Quando terminar de usar um cluster, pode simplesmente desativá-lo para não gastar dinheiro num cluster inativo. Não tem de se preocupar em perder dados, porque o Dataproc está integrado com o Cloud Storage, o BigQuery e o Cloud Bigtable.
- Simples e familiar: não precisa de aprender novas ferramentas nem APIs para usar o Dataproc, o que facilita a transferência de projetos existentes para o Dataproc sem reestruturação. O Spark, o Hadoop, o Pig e o Hive são atualizados com frequência para que possa ser produtivo mais rapidamente.
O que está incluído no Dataproc
Para ver uma lista das versões de código aberto (Hadoop, Spark, Hive e Pig) e Google Cloud dos conetores suportados pelo Dataproc, consulte a lista de versões do Dataproc.
Introdução ao Dataproc
Para começar rapidamente a usar o Dataproc, consulte os inícios rápidos do Dataproc. Pode aceder ao Dataproc das seguintes formas:
- Através da API REST
- Usar o SDK Cloud
- Usar a IU do Dataproc
- Através das bibliotecas de cliente do Google Cloud