Présentation de Dataproc
Accéder aux clusters
-
Interfaces Web de clusters
Interfaces Web disponibles pour les composants Open Source de Dataproc et procédure permettant de s'y connecter
-
Passerelle des composants
Utilisez la passerelle des composants pour vous connecter aux composants de cluster.
-
Fédération d'identité de personnel
Autorisez le personnel à accéder à la passerelle des composants Dataproc.
-
Configuration du réseau
Configurez le réseau de votre cluster.
-
Se connecter à un cluster via SSH
Utiliser SSH pour se connecter à un nœud de cluster
Composants
-
Présentation
Présentation des composants de cluster.
-
Composant Anaconda facultatif
Installez le composant Anaconda sur votre cluster.
-
Composant Docker facultatif
Installez le composant Docker sur votre cluster.
-
Composant Flink facultatif
Installez le composant Flink sur votre cluster.
-
Composant HBase facultatif version bêta
Installez le composant HBase sur votre cluster.
-
Composant Hive WebHCat facultatif
Installez le composant Hive WebHCat sur votre cluster.
-
Composant Hudi facultatif
Installez le composant Hudi sur votre cluster.
-
Composant Jupyter facultatif
Installez le composant Jupyter sur votre cluster.
-
Composant Presto facultatif
Installez le composant Presto sur votre cluster.
-
Composant Ranger facultatif
Installez le composant Ranger sur votre cluster.
-
Utiliser Ranger avec Kerberos
Utilisez le composant Ranger avec Kerberos sur votre cluster.
-
Sauvegarder et restaurer un schéma Ranger
Suivez les étapes pour sauvegarder et restaurer un schéma Ranger.
-
Composant Solr facultatif
Installez le composant Solr sur votre cluster.
-
Composant Trino facultatif
Installez le composant Trino sur votre cluster.
-
Composant Zeppelin facultatif
Installez le composant Zeppelin sur votre cluster.
-
Composant Zookeeper facultatif
Installez le composant ZooKeeper sur votre cluster.
Options de calcul
-
Types de machines compatibles
Dataproc vous permet de spécifier des types de machines personnalisés pour des charges de travail spéciales.
-
Clusters de GPU
Utilisez des processeurs graphiques (GPU) avec vos clusters Dataproc.
-
Disques durs SSD locaux
Associez des disques SSD locaux à des clusters Dataproc.
-
Configuration minimale de la plate-forme du CPU
Spécifiez une configuration minimale de plate-forme de processeur pour votre cluster Dataproc.
-
Disques durs SSD persistants (PD-SSD) en tant que disques de démarrage
Créez des clusters avec des disques de démarrage SSD persistants.
-
Nœuds de calcul secondaires : VM préemptives et non préemptives
Découvrez et utilisez les nœuds de calcul secondaires préemptifs et non préemptifs dans votre cluster Dataproc.
Configurer et exécuter des tâches
-
Cycle de vie d'une tâche
Comprendre la limitation des tâches Dataproc
-
Résoudre les problèmes de retard des jobs
Comprendre et éviter les causes courantes de retards d'emploi.
-
Serveur d'historique persistant
En savoir plus sur le serveur d'historique persistant Dataproc
-
Tâches redémarrables
Créez des tâches qui redémarrent en cas d'échec. Ce mode de fonctionnement est parfaitement adapté aux tâches de longue durée et en flux continu.
-
Exécuter une tâche Spark sur Dataproc sur GKE
Créez un cluster virtuel Dataproc sur GKE, puis exécutez un job Spark sur le cluster virtuel.
-
Personnaliser l'environnement d'exécution des jobs Spark avec Docker sur YARN
Utiliser une image Docker pour personnaliser votre environnement de job Spark.
-
Exécuter des jobs Spark avec DataprocFileOutputCommitter
Exécutez des tâches Spark avec la version configurable et améliorée du fichier Open Source
FileOutputCommitter
de Dataproc.
Configurer des clusters
-
Procéder à l'autoscaling des clusters
Apprenez à redimensionner automatiquement les clusters au moyen de l'autoscaling afin de répondre aux exigences des charges de travail des utilisateurs.
-
Sélection de zone automatique
Laissez Dataproc sélectionner une zone pour votre cluster.
-
Mise en cache du cluster
Utilisez la mise en cache des clusters pour améliorer les performances.
-
Métadonnées du cluster
Découvrez les métadonnées de cluster de Dataproc et comment définir vos propres métadonnées personnalisées.
-
Propriétés du cluster
Utilisez les propriétés de configuration des composants Open Source Dataproc.
-
Rotation des clusters
Effectuez une rotation des clusters faisant partie d'un pool de clusters.
-
Mode de flexibilité améliorée
Pour continuer à exécuter les tâches, modifiez l'emplacement où les données intermédiaires sont enregistrées.
-
VM flexibles
Spécifiez les types de VM que vous pouvez utiliser dans votre cluster si les VM demandées ne sont pas disponibles.
-
Mode haute disponibilité
Augmentez la résilience des systèmes HDFS et YARN en cas d'indisponibilité des services.
-
Actions d'initialisation
Spécifiez les actions à exécuter sur tout ou partie des nœuds de cluster lors de la configuration.
-
Configuration du réseau
Configurez le réseau de votre cluster.
-
Procéder au scaling des clusters
Augmentez ou réduisez le nombre de nœuds de calcul d'un cluster, même pendant l'exécution de tâches.
-
Suppression planifiée
Supprimez votre cluster après une période donnée ou à un moment déterminé.
-
Configuration de la sécurité
Activer les fonctionnalités de sécurité du cluster
-
Informatique confidentielle
Créer un cluster avec des Confidential VMs
-
Clés de chiffrement gérées par le client (CMEK)
Gérez les clés chiffrées pour le cluster Dataproc et les données de jobs.
-
Plug-in Ranger Cloud Storage
utiliser le plug-in Ranger Cloud Storage avec Dataproc).
-
Comptes de service Dataproc
Familiarisez-vous avec les comptes de service Dataproc.
-
Clusters à nœud unique
Créez des clusters de bacs à sable simples avec un seul nœud.
-
Clusters de nœuds à locataire unique
Créer des clusters sur des nœuds à locataire unique
-
Bucket de préproduction et bucket temporaire
En savoir plus sur les buckets de préproduction et les buckets temporaires Dataproc
Connecteurs
-
Connecteur BigQuery
Utilisez BigQuery pour Apache Hadoop sur vos clusters Dataproc.
-
Exemples de code de connecteur BigQuery
Affichez les exemples de code BigQuery.
-
Bigtable avec Dataproc
Utilisez l'API Bigtable compatible avec Apache HBase avec vos clusters Dataproc.
-
Connecteur Cloud Storage
Utiliser le connecteur Cloud Storage
-
Connecteur BigQuery Hive
En savoir plus sur le connecteur BigQuery de Hive
-
Pub/Sub Lite avec Dataproc
Utilisez Pub/Sub Lite avec Dataproc.
Stockage de données
Gestion de l'authentification et des accès (IAM)
-
Autorisations Dataproc et rôles IAM
Configurez des rôles IAM pour autoriser les utilisateurs et les groupes à accéder aux ressources Dataproc de votre projet.
-
Entités principales et rôles Dataproc
Familiarisez-vous avec les principes de Dataproc et les rôles requis pour créer, gérer et exécuter des tâches sur un cluster.
-
Utiliser l'IAM précise de Dataproc
Configurez des autorisations précises et propres à un cluster.
-
Authentification personnelle de cluster Dataproc
Configurez l'authentification de cluster personnel.
-
Architecture mutualisée basée sur un compte de service Dataproc
Configurez des clusters mutualisés.
-
Gérer les ressources Dataproc à l'aide de contraintes personnalisées
Configurez des contraintes personnalisées pour gérer les ressources Dataproc.
Points de terminaison régionaux de Dataproc
Gestion des versions
-
Présentation
Versions logicielles utilisées sur les clusters Dataproc et procédure à suivre pour les sélectionner
-
Versions 2.1.x
Version d'image 2.1 de Dataproc
-
Versions 2.0.x
Version 2.0 de l'image Dataproc
-
Versions 1.5.x
Version d'image 1.5 de Dataproc
-
Versions 1.4.x
Version d'image 1.4 de Dataproc
-
Listes des versions des images de cluster Dataproc
Listes des versions actuellement compatibles avec les clusters Dataproc.
Modèles de workflow
-
Présentation
Découvrez les modèles de workflow.
-
Surveillance et débogage des workflows
Découvrez comment surveiller et déboguer des workflows.
-
Paramétrage
Apprenez à paramétrer vos modèles de workflow.
-
Utiliser des fichiers YAML
Apprenez à utiliser les fichiers YAML dans votre workflow.
-
Utiliser des sélecteurs de cluster
Apprenez à utiliser les sélecteurs de cluster dans votre workflow.
-
Utiliser des workflows intégrés
Découvrez comment créer et exécuter des workflows intégrés.
-
Utiliser des workflows
Apprenez à configurer et à exécuter des workflows.
-
Solutions de planification des workflows
Exécutez des workflows avec Cloud Scheduler, Cloud Functions et Cloud Composer.