Last reviewed 2023-07-20 UTC
O Dataproc é um serviço escalonável e totalmente gerenciado para executar jobs do Apache Hadoop e do Spark. Com o Dataproc, as máquinas virtuais podem ser personalizadas e escalonadas verticalmente, se for necessário. O Dataproc se integra perfeitamente ao Cloud Storage, ao BigQuery, ao Bigtable e a outros serviços do Google Cloud.
Práticas recomendadas
- Modo de alta disponibilidade do Dataproc: compare o modo de alta disponibilidade (HA, na sigla em inglês) do Hadoop com o modo padrão não alta disponibilidade em termos de nomes de instância, Apache ZooKeeper, Hadoop Distributed File System (HDFS) e Yet Another Resource Negotiator (YARN). Aprenda também a criar um cluster de alta disponibilidade.
- Clusters de escalonamento automático: quando usar o escalonamento automático do Dataproc, como criar uma política de escalonamento automático, uso da política de vários clusters, práticas recomendadas de confiabilidade para a configuração de escalonamento automático, métricas e registros.
- Modo de flexibilidade aprimorado (EFM, na sigla em inglês) do Dataproc: exemplos de como usar o modo de flexibilidade aprimorada para minimizar atrasos no progresso do job, configuração avançada, como particionamento e paralelismo, e desativação otimizada do YARN em clusters EFM.
- Desativação otimizada: use a desativação otimizada para minimizar o impacto da remoção de workers de um cluster, como usar esse recurso com workers secundários e exemplos de comando para a desativação otimizada.
- Jobs reinicializáveis: com as configurações opcionais, é possível definir jobs a serem reiniciados em caso de falha para reduzir os tipos comuns de falha, incluindo problemas de falta de memória e reinicializações inesperadas da máquina virtual do Compute Engine.