Last reviewed 2023-07-20 UTC
Dataproc es un servicio completamente administrado y escalable para ejecutar trabajos de Apache Hadoop y Spark. Con Dataproc, las máquinas virtuales se pueden personalizar y aumentar o disminuir de escala según sea necesario. Dataproc se integra estrechamente en Cloud Storage, BigQuery, Bigtable y otros servicios de Google Cloud.
prácticas recomendadas
- Modo de alta disponibilidad de Dataproc: compara el modo de alta disponibilidad (HA) de Hadoop con el modo predeterminado que no es de HA en cuanto a nombres de instancia, Apache ZooKeeper, Sistema de archivos distribuidos de Hadoop (HDFS) y Yet Another Resource Negotiator (YARN). Además, cómo crear un clúster de alta disponibilidad.
- Clústeres con ajuste de escala automático: Cuándo se usa el ajuste de escala automático de Dataproc, cómo crear una política de ajuste de escala automático, uso de varias políticas de múltiples clústeres, prácticas recomendadas de confiabilidad para la configuración del ajuste de escala automático, y métricas y registros.
- Modo de flexibilidad mejorada de Dataproc (EFM): Ejemplos de uso del modo de flexibilidad mejorada para minimizar los retrasos en el progreso del trabajo, la configuración avanzada como la partición y el paralelismo, y el retiro de servicio ordenado de YARN en clústeres EFM.
- Retiro de servicio ordenado: Usa el retiro de servicio ordenado para minimizar el impacto de quitar trabajadores de un clúster, cómo usar esta función con trabajadores secundarios y ejemplos de comandos para el retiro de servicio ordenado.
- Trabajos reiniciables: Con la configuración opcional, puedes establecer trabajos para que se reinicien ante fallas para mitigar los tipos comunes de falla de trabajo, incluidos los problemas de memoria insuficiente y los reinicios inesperados de la máquina virtual de Compute Engine.