Dataproc

Dataproc permet de traiter rapidement, facilement et de façon plus sécurisée les analyses et les données Open Source dans le cloud.

Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Google Cloud pendant les 90 premiers jours d'utilisation. Tous les clients peuvent utiliser gratuitement une sélection de produits (dans la limite des plafonds mensuels), dont BigQuery et plus encore.

Profiter d'un essai gratuit de Dataproc
  • action/check_circle_24px Créé avec Sketch.

    Activez un cluster avec autoscaling en 90 secondes sur des machines personnalisées.

  • action/check_circle_24px Créé avec Sketch.

    Créez des clusters Apache Spark, Apache Hadoop ou Presto entièrement gérés ainsi que d'autres clusters OSS.

  • action/check_circle_24px Créé avec Sketch.

    Ne payez que les ressources utilisées et réduisez le coût total de possession des solutions OSS.

  • action/check_circle_24px Créé avec Sketch.

    Intégrez des mécanismes de chiffrement et de sécurité unifiée à chaque cluster.

  • action/check_circle_24px Créé avec Sketch.

    Accélérez la science des données avec des clusters sur mesure.

Avantages

Créez plus rapidement des clusters OSS adaptés à vos besoins sur des machines personnalisées

Que vous ayez besoin de mémoire supplémentaire pour Presto ou de GPU pour les fonctionnalités de machine learning d'Apache Spark, Dataproc peut vous aider à accélérer le traitement de vos analyses et de vos données en activant un cluster sur mesure en 90 secondes.

Solution de gestion de clusters simple et abordable

Grâce à des fonctionnalités telles que l'autoscaling, la suppression des clusters inactifs ou la facturation à la seconde, Dataproc vous permet de réduire le coût total de possession des solutions OSS, et de consacrer votre temps et vos ressources à d'autres priorités. 

Sécurité intégrée par défaut

Le chiffrement par défaut permet de protéger toutes les données. Avec l'API Jobs et la passerelle des composants, vous pouvez définir des autorisations pour les clusters Cloud IAM sans avoir à configurer des nœuds de mise en réseau ou de passerelle. 

Principales fonctionnalités

Principales fonctionnalités

Gestion automatisée des clusters

Les processus gérés de déploiement, de journalisation et de surveillance vous permettent de vous concentrer sur vos données au lieu de vos clusters. Les clusters Dataproc sont stables, évolutifs et rapides.

Conteneurisation des tâches OSS

Lorsque vous créez des tâches OSS (Apache Spark, par exemple) sur Dataproc, vous pouvez les conteneuriser rapidement avec Kubernetes et les déployer dans tout environnement comportant un cluster GKE. 

Sécurité d'entreprise

Lorsque vous créez un cluster Dataproc, vous pouvez activer le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité. Par ailleurs, le chiffrement au repos par défaut, OS Login, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK) font partie des fonctionnalités de sécurité propres à Google Cloud qui sont les plus fréquemment utilisées avec Dataproc.

Découvrir toutes les fonctionnalités

Clients

Nouveautés

Nouveautés

Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et bien plus encore.

Documentation

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Transférer vos clusters Hadoop et Spark vers le cloud

Les entreprises migrent leurs clusters Apache Hadoop et Spark sur site vers Dataproc pour gérer les coûts et bénéficier d'une évolutivité flexible. Avec Dataproc, elles disposent d'un cluster sur mesure qui est entièrement géré et peut s'adapter automatiquement pour gérer n'importe quelle tâche de traitement d'analyses ou de données. 

Cas d'utilisation
Science des données sur Dataproc

Créez votre environnement de science des données idéal en activant un cluster Dataproc sur mesure. Intégrez des logiciels Open Source comme Apache Spark, NVIDIA RAPIDS et les notebooks Jupyter aux GPU et aux services d'IA de Google Cloud pour accélérer le développement de vos solutions d'IA et de machine learning. 

Toutes les fonctionnalités

Toutes les fonctionnalités

Clusters redimensionnables Créez des clusters et faites-les évoluer rapidement avec différents paramètres : types de machines virtuelles, tailles de disque, nombre de nœuds et options de mise en réseau.
Autoscaling des clusters L'autoscaling Dataproc fournit un mécanisme pour automatiser la gestion des ressources de cluster, et permet l'ajout et le retrait automatiques de nœuds de calcul dans le cluster.
Intégration au cloud Grâce à l'intégration avec Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring et AI Hub, vous bénéficiez d'une plate-forme de données plus fiable et plus complète.
Gestion des versions La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
Haute disponibilité Pour garantir la haute disponibilité de vos clusters et de vos tâches, exécutez les clusters en mode haute disponibilité avec plusieurs nœuds maîtres, et paramétrez vos tâches de sorte qu'elles redémarrent en cas d'échec.
Suppression planifiée de clusters Pour éviter que des frais ne vous soient facturés pour un cluster inactif, vous pouvez utiliser la fonctionnalité de suppression planifiée de Dataproc, qui permet de supprimer un cluster après un délai d'inactivité spécifié, à une date et une heure ultérieures données ou après une période déterminée.
Configuration automatique ou manuelle Dataproc configure automatiquement le matériel et les logiciels tout en permettant un contrôle manuel.
Outils pour les développeurs Vous pouvez gérer vos clusters à l'aide d'une interface utilisateur Web conviviale, du SDK Cloud, des API RESTful, de l'accès SSH et d'autres méthodes.
Actions d'initialisation Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Composants facultatifs Vous pouvez installer et configurer des composants facultatifs sur le cluster. Intégrés aux composants Dataproc, les composants facultatifs offrent des environnements entièrement configurés pour Zeppelin, Druid, Presto et d'autres composants logiciels Open Source liés à l'écosystème Apache Hadoop/Apache Spark.
Images personnalisées Les clusters Dataproc peuvent être provisionnés avec une image personnalisée incluant vos packages de système d'exploitation Linux préinstallés.
Machines virtuelles flexibles Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.
Passerelle des composants et accès à des notebooks La passerelle des composants Dataproc permet un accès sécurisé, en un seul clic, aux interfaces Web des composants par défaut et facultatifs de Dataproc qui s'exécutent sur le cluster.
Modèles de workflows Les modèles de workflows Dataproc offrent un procédé souple et convivial pour gérer et exécuter des workflows. Un modèle de workflow est une configuration de workflow réutilisable qui définit un graphe des tâches avec des informations sur leur emplacement d'exécution.

Tarifs

Tarifs

Les tarifs de Dataproc sont basés sur le nombre de processeurs virtuels et la durée de leur exécution. Même si des tarifs horaires sont indiqués, nous appliquons une facturation à la seconde. Vous ne payez donc que ce que vous consommez. Pour plus d'informations, consultez la page des tarifs.

Partenaires

Partenaires

Dataproc s'intègre aux solutions de partenaires stratégiques pour compléter vos compétences et investissements existants.