Last reviewed 2023-07-20 UTC
Dataproc est un service entièrement géré et évolutif permettant d'exécuter des tâches Apache Hadoop et Spark. Avec Dataproc, les machines virtuelles peuvent être personnalisées et faire l'objet d'un scaling à la hausse ou à la baisse en fonction des besoins. Dataproc s'intègre étroitement à Cloud Storage, BigQuery, Bigtable et d'autres services Google Cloud.
Bonnes pratiques
- Mode haute disponibilité de Dataproc : comparaison du mode haute disponibilité de Hadoop au mode standard par défaut concernant les noms d'instance, Apache ZooKeeper, Hadoop Distributed File System (HDFS) et Yet Another Resource Negotiator (YARN). Également, méthode de création d'un cluster haute disponibilité.
- Autoscaling des clusters : quand utiliser l'autoscaling Dataproc, comment créer une règle d'autoscaling, utilisation des stratégies multicluster, bonnes pratiques de fiabilité pour la configuration de l'autoscaling, métriques et journaux.
- Mode de flexibilité améliorée (EFM) de Dataproc : exemples d'utilisation du mode de flexibilité améliorée pour réduire les retards de progression de tâche, configuration avancée telle que le partitionnement et le parallélisme, mise hors service concertée YARN sur les clusters EFM.
- Mise hors service concertée : utilisation de la mise hors service concertée pour minimiser l'impact de la suppression des nœuds de calcul d'un cluster, utilisation de cette fonctionnalité avec des nœuds de calcul secondaires, exemples de commandes pour la mise hors service concertée.
- Jobs redémarrables : certains paramètres facultatifs vous permettent de configurer les jobs pour qu'ils redémarrent en cas d'échec afin de limiter les défaillances courantes des jobs, y compris les problèmes de saturation de la mémoire et les redémarrages inattendus de machines virtuelles Compute Engine.