Bonnes pratiques Dataproc pour la production

Ce document présente les bonnes pratiques Dataproc qui peuvent vous aider exécuter des tâches de traitement de données fiables, efficaces et pertinentes Clusters Dataproc dans les environnements de production.

Spécifier des versions d'images de cluster

Dataproc utilise des versions d'image pour regrouper le système d'exploitation, les composants big data et les connecteurs Google Cloud dans un package déployé sur un cluster. Si vous ne spécifiez pas de version d'image lorsque vous créez un cluster, Dataproc utilise par défaut la version d'image stable la plus récente.

Pour les environnements de production, associez votre cluster à un cluster major.minor version de l'image Dataproc, en tant que comme indiqué dans la commande suivante de la gcloud CLI.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=region \
    --image-version=2.0

Dataproc associe la version de major.minor à la dernière version de correction (2.0 est résolu en 2.0.x). Remarque: Si vous devez utiliser une version de correction spécifique pour votre cluster, vous pouvez le spécifier: par exemple, --image-version=2.0.x. Voir Fonctionnement de la gestion des versions pour plus d'informations.

Versions d'image Preview de Dataproc

Les nouvelles versions mineures des images Dataproc sont disponibles dans une version preview avant d'être publiées dans la version mineure standard. Utilisez une image d'aperçu pour tester et valider vos tâches avec une nouvelle version mineure d'image avant d'adopter la version mineure d'image standard en production. Pour en savoir plus, consultez la section Gestion des versions Dataproc.

Utiliser des images personnalisées si nécessaire

Si vous avez des dépendances à ajouter au cluster, telles que des bibliothèques Python, un logiciel de renforcement de la sécurité ou une protection antivirus, Créez une image personnalisée à partir de la dernière image. dans le suivi de la version d'image mineure cible. Cette pratique vous permet de répondre aux exigences de dépendance lorsque vous créez des clusters à l'aide de votre image personnalisée. Lorsque vous recréez votre image personnalisée pour les exigences de mise à jour des dépendances, utilisez la dernière version de l'image de correction disponible dans la piste de l'image mineure.

Envoyer des tâches au service Dataproc

Envoyez des jobs au service Dataproc à l'aide d'une jobs.submit à l'aide de la méthode gcloud CLI ou la console Google Cloud. Définissez les autorisations de tâche et de cluster en accordant des rôles Dataproc. Utilisez des rôles personnalisés pour séparer l'accès au cluster des autorisations d'envoi de jobs.

Avantages de l'envoi de tâches au service Dataproc:

  • Aucun paramètre réseau complexe n'est requis : l'API est largement accessible.
  • Gérer facilement les autorisations et les rôles IAM
  • Suivez facilement l'état des tâches : pas de métadonnées de tâches Dataproc pour compliquer les résultats.

En production, exécutez des tâches qui ne dépendent que de dépendances au niveau du cluster à une version d'image mineure fixe (par exemple, --image-version=2.0). Regroupez les dépendances avec les tâches lorsqu'elles sont envoyées. Envoi... un uber jar Pour ce faire, il est courant d'utiliser Spark ou MapReduce.

  • Exemple : Si un fichier JAR de tâche dépend de args4j et de spark-sql, avec args4j spécifique à la tâche et spark-sql une dépendance au niveau du cluster, regroupez args4j dans le fichier JAR uber de la tâche.

Contrôler les emplacements des actions d'initialisation

Les actions d'initialisation vous permettent d'exécuter automatiquement des scripts ou d'installer des composants lorsque vous créez un cluster Dataproc (consultez le dépôt GitHub dataproc-initialization-actions pour connaître les actions d'initialisation Dataproc courantes). Lorsque vous utilisez des actions d'initialisation de cluster dans un environnement de production, copiez les scripts d'initialisation dans Cloud Storage plutôt que de les extraire d'un dépôt public. Cette pratique évite d'exécuter des scripts d'initialisation susceptibles d'être modifiés par d'autres personnes.

Surveiller les notes de version de Dataproc

Dataproc publie régulièrement de nouvelles versions de correction des images. Consulter les notes de version de Dataproc ou s'y abonner connaître les dernières versions de l'image Dataproc et les autres des annonces, des modifications et des correctifs.

Afficher le bucket de préproduction pour examiner les échecs

  1. Examinez le bucket de préproduction de votre cluster pour examiner les messages d'erreur du cluster et de la tâche. En règle générale, l'emplacement Cloud Storage du bucket de préproduction s'affiche dans les messages d'erreur, comme indiqué dans le texte en gras de l'exemple de message d'erreur suivant :

    ERROR:
    (gcloud.dataproc.clusters.create) Operation ... failed:
    ...
    - Initialization action failed. Failed action ... see output in: 
    gs://dataproc-<BUCKETID>-us-central1/google-cloud-dataproc-metainfo/CLUSTERID/<CLUSTER_ID>\dataproc-initialization-script-0_output
     

  2. Utilisez la gcloud CLI pour afficher le contenu du bucket de préproduction :

    gcloud storage cat gs://STAGING_BUCKET
    
    Exemple de résultat:
    + readonly RANGER_VERSION=1.2.0
    ... Ranger admin password not set. Please use metadata flag - default-password
    

Obtenir de l'aide

Google Cloud prend en charge vos charges de travail OSS de production et vous aide à respecter vos contrats de niveau de service professionnels à travers plusieurs niveaux d'assistance. De plus, les services de conseil Google Cloud peuvent vous conseiller sur les bonnes pratiques à suivre pour les déploiements en production de votre équipe.

Pour en savoir plus