Accéder à
Dataproc

Dataproc

Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter Apache Hadoop, Apache Spark, Apache Flink, Presto et plus de 30 outils et frameworks Open Source. Entièrement intégré à Google Cloud, Dataproc vous permet de moderniser vos lacs de données, d'effectuer des tâches d'ETL et de sécuriser la science des données à grande échelle et pour un moindre coût.

  • Flexible : utilisez l'informatique sans serveur ou gérez des clusters sur Google Compute et Kubernetes. Déployez une solution recommandée par Google qui unifie les lacs et les entrepôts de données pour le stockage, le traitement et l'analyse des données structurées et non structurées.

  • Ouvert : exécutez des analyses de données Open Source à grande échelle avec une sécurité de niveau entreprise.

  • Intelligent : appuyez les utilisateurs des données grâce à des intégrations avec Vertex AI, BigQuery et Dataplex.

  • Sécurisé : Configurer une sécurité avancée telle que celle offerte par Kerberos, Apache Ranger et Personal Authentication.

  • Économique : réduisez le coût total de possession de 54 % par rapport aux lacs de données sur site facturés à la seconde.

Avantages

Modernisation du traitement de données Open Source

Le déploiement sans serveur, la journalisation et la surveillance vous permettent de vous concentrer sur vos données et vos analyses, et non sur votre infrastructure. Réduisez le coût total de possession de la gestion d'Apache Spark jusqu'à 54 %. Créez et entraînez des modèles cinq fois plus vite.

Un logiciel Open Source intelligent et fluide pour la science des données

Aidez les data scientists et les analystes de données à effectuer facilement des jobs de data science grâce à des intégrations natives avec BigQuery, Dataplex, Vertex AI et les notebooks OSS tels que JupyterLab.

Sécurité d'entreprise intégrée à Google Cloud

Fonctionnalités de sécurité telles que le chiffrement au repos par défaut, OS Login, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK). Activez le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité.

Principales fonctionnalités

Principales fonctionnalités

Logiciel Open Source entièrement géré et automatisé pour le big data.

Le déploiement sans serveur, la journalisation et la surveillance vous permettent de vous concentrer sur vos données et vos analyses, et non sur votre infrastructure. Réduisez le coût total de possession de la gestion d'Apache Spark jusqu'à 54 %.Les data scientists et les ingénieurs peuvent créer et entraîner des modèles cinq fois plus vite que les notebooks traditionnels, grâce à l'intégration à Vertex AI Workbench. L'API Dataproc Jobs facilite l'intégration du traitement de big data dans des applications personnalisées, tandis que Dataproc Metastore vous évite d'avoir à exécuter votre propre métastore Hive ou service de catalogue.

Conteneurisation des tâches Apache Spark avec Kubernetes

Créez vos tâches Apache Spark à l'aide de Dataproc sur Kubernetes afin de pouvoir utiliser Dataproc avec Google Kubernetes Engine (GKE) et ainsi assurer la portabilité et l'isolation des tâches.

Sécurité d'entreprise intégrée à Google Cloud

Lorsque vous créez un cluster Dataproc, vous pouvez activer le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité. Par ailleurs, le chiffrement au repos par défaut, OS Login, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK) font partie des fonctionnalités de sécurité propres à Google Cloud qui sont les plus fréquemment utilisées avec Dataproc.

Le meilleur de l'Open Source et le meilleur de Google Cloud réunis

Dataproc vous permet d'utiliser facilement les outils, les algorithmes et les langages de programmation Open Source que vous exploitez déjà, sur des ensembles de données à l'échelle du cloud. Parallèlement, Dataproc est intégré directement aux autres produits d'analyse, de base de données et d'IA de Google Cloud. Les data scientists et les ingénieurs peuvent rapidement accéder aux données et créer des applications de données connectant Dataproc à BigQuery, Vertex AI, Spanner, Pub/Sub ou Data Fusion.

Voir toutes les fonctionnalités

Documentation

Documentation

Google Cloud Basics

Spark sans serveur

Envoyez des tâches Spark qui assurent le provisionnement et l'autoscaling automatiques. Pour en savoir plus, consultez le lien du guide de démarrage rapide ci-dessous.
APIs & Libraries

Actions d'initialisation Dataproc

Ajoutez d'autres projets OSS à vos clusters Dataproc avec des actions d'initialisation prédéfinies.
APIs & Libraries

Connecteurs Open Source

Bibliothèques et outils pour l'interopérabilité Apache Hadoop
APIs & Libraries

Modèles de workflows Dataproc

L'API WorkflowTemplates de Dataproc offre un procédé souple et convivial pour la gestion et l'exécution des workflows.

Vous ne trouvez pas ce que vous cherchez ?

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Transférer vos clusters Hadoop et Spark vers le cloud

Les entreprises migrent leurs clusters Apache Hadoop et Spark sur site vers Dataproc pour gérer les coûts et bénéficier d'une évolutivité flexible. Avec Dataproc, elles disposent d'un cluster sur mesure qui est entièrement géré et peut s'adapter automatiquement pour gérer n'importe quelle tâche de traitement d'analyses ou de données. 

Toutes les fonctionnalités

Toutes les fonctionnalités

Spark sans serveur
Déployez des applications et pipelines Spark qui évoluent automatiquement sans provisionnement ni réglage d'infrastructure manuels. 
Clusters redimensionnables
Créez des clusters et faites-les évoluer rapidement avec différents paramètres : types de machines virtuelles, tailles de disque, nombre de nœuds et options de mise en réseau.
Procéder à l'autoscaling des clusters
L'autoscaling Dataproc fournit un mécanisme pour automatiser la gestion des ressources de cluster, et permet l'ajout et le retrait automatiques de nœuds de calcul dans le cluster.
Intégration au cloud
Grâce à l'intégration avec Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging et Cloud Monitoring, vous bénéficiez d'une plate-forme de données plus complète et plus robuste.
Configuration automatique ou manuelle
Dataproc configure automatiquement le matériel et les logiciels tout en permettant un contrôle manuel.
Outils de développement
Vous pouvez gérer vos clusters à l'aide d'une interface utilisateur Web conviviale, du SDK Cloud, des API RESTful, de l'accès SSH et d'autres méthodes.
Actions d'initialisation
Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Composants facultatifs
Vous pouvez installer et configurer des composants facultatifs sur le cluster. Intégrés aux composants Dataproc, les composants facultatifs offrent des environnements entièrement configurés pour Zeppelin, Presto et d'autres composants logiciels Open Source liés à l'écosystème Apache Hadoop/Apache Spark.
Conteneurs et images personnalisés
Dataproc sans serveur Spark peut être provisionné avec des conteneurs Docker personnalisés. Les clusters Dataproc peuvent être provisionnés avec une image personnalisée incluant vos packages de système d'exploitation Linux préinstallés.
Machines virtuelles flexibles
Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.
Modèles de workflows
Les modèles de workflows Dataproc offrent un procédé souple et convivial pour gérer et exécuter des workflows. Un modèle de workflow est une configuration de workflow réutilisable qui définit un graphe des tâches avec des informations sur leur emplacement d'exécution.
Gestion automatisée des règles
Standardisez les règles de sécurité, de gestion des coûts et d'infrastructure sur un parc de clusters. Vous pouvez créer des règles de gestion des ressources, de sécurité ou de réseau au niveau du projet. Vous pouvez également faciliter l'utilisation des images, des composants, du métastore et d'autres services périphériques appropriés pour les utilisateurs. Cela vous permettra ainsi de gérer votre parc de clusters et vos règles Spark sans serveur à l'avenir.
Alertes intelligentes
Les alertes recommandées de Dataproc permettent aux clients d'ajuster les seuils des alertes préconfigurées afin d'obtenir des alertes sur les clusters ou les tâches inactifs ou en surutilisation, les clusters surexploités, et plus encore. Les clients peuvent personnaliser davantage ces alertes et même créer des fonctionnalités avancées de gestion des clusters et des tâches. Ces fonctionnalités permettent aux clients de gérer leur parc à grande échelle.
Dataproc sur Google Distributed Cloud (GDC)
Dataproc sur GDC vous permet d'exécuter Spark sur GDC Edge Appliance dans votre centre de données. Vous pouvez désormais utiliser les mêmes applications Spark sur Google Cloud ainsi que sur les données sensibles de votre centre de données.
Dataproc Metastore multirégional
Dataproc Metastore est un métastore (HMS) Hive entièrement géré et à disponibilité élevée offrant un contrôle des accès ultraprécis. Le service Dataproc Metastore multirégional offre une reprise après sinistre en mode "actif/actif" et une résilience face aux pannes régionales.

Tarification

Tarifs

Les tarifs de Dataproc sont basés sur le nombre de vCPU (processeurs virtuels) et la durée de leur exécution. Même si des tarifs horaires sont indiqués, nous appliquons une facturation à la seconde. Vous ne payez donc que ce que vous consommez.

Exemple : Un cluster comportant 6 nœuds (1 nœud principal + 5 nœuds de calcul) avec 4 processeurs chacun fonctionnant pendant 2 heures coûterait 0,48 $. Frais Dataproc = nombre de vCPU x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

Pour plus d'informations, consultez la page des tarifs.

Partenaires

Partenaires

Dataproc s'intègre aux solutions de partenaires stratégiques pour compléter vos compétences et investissements existants. 

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud