Découvrez comment simplifier l'analyse d'entreprise en grâce à la session Solution d'analyse de données ouverte et intégrée sur Google Cloud de la conférence Next, disponible ici .

Accéder à

Dataproc

Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter Apache Spark, Apache Flink, Presto et plus de 30 outils et frameworks Open Source. Entièrement intégré à Google Cloud, Dataproc vous permet de moderniser vos lacs de données, d'effectuer des tâches d'ETL et de sécuriser la science des données à l'échelle mondiale et pour un moindre coût.

  • action/check_circle_24px Créé avec Sketch.

    Ouvert : exécutez des analyses de données Open Source à grande échelle avec une sécurité de niveau entreprise

  • action/check_circle_24px Créé avec Sketch.

    Flexible : utilisez l'informatique sans serveur ou gérez des clusters sur Google Compute et Kubernetes

  • action/check_circle_24px Créé avec Sketch.

    Intelligent : appuyez les utilisateurs des données grâce à des intégrations avec Vertex AI, BigQuery et Dataplex

  • action/check_circle_24px Créé avec Sketch.

    Sécurisé : configurez des outils de sécurité avancés tels que Kerberos, Apache Ranger et Personal Authentication

  • action/check_circle_24px Créé avec Sketch.

    Économique : réduisez le coût total de possession de 57 % par rapport aux lacs de données sur site facturés à la seconde

Avantages

Modernisation du traitement des données Open Source

Que vous ayez besoin de VM ou de Kubernetes, de mémoire supplémentaire pour Presto ou même de GPU, Dataproc peut vous aider à accélérer le traitement de vos données et de vos analyses via des environnements sans serveur ou sur mesure à la demande.

Un logiciel Open Source intelligent et fluide pour la science des données

Aidez les data scientists et les analystes de données à effectuer des tâches de science des données en toute facilité via des intégrations natives avec Vertex AI.

Sécurité, conformité et gouvernance avancées

Gérez et appliquez les autorisations et l'authentification des utilisateurs à l'aide de stratégies Kerberos et Apache Ranger existantes ou de l'authentification de cluster personnel. Définissez des autorisations sans avoir à configurer de nœud réseau.

Principales fonctionnalités

Principales fonctionnalités

Logiciel Open Source entièrement géré et automatisé pour le big data

Le déploiement, la journalisation et la surveillance sans serveur vous permettent de vous concentrer sur vos données et vos analyses, et non sur votre infrastructure. Réduisez le coût total de possession de la gestion d'Apache Spark jusqu'à 57 %. Les data scientists et les ingénieurs peuvent créer et entraîner des modèles cinq fois plus vite que les notebooks traditionnels, grâce à l'intégration à Vertex AI Workbench. L'API Dataproc Jobs facilite l'intégration du traitement de big data dans des applications personnalisées, tandis que Dataproc Metastore vous évite d'avoir à exécuter votre propre métastore Hive ou service de catalogue.

Conteneurisation des tâches Apache Spark avec Kubernetes

Créez vos tâches Apache Spark à l'aide de Dataproc sur Kubernetes afin de pouvoir utiliser Dataproc avec Google Kubernetes Engine (GKE) et ainsi assurer la portabilité et l'isolation des tâches.

Sécurité d'entreprise intégrée à Google Cloud

Lorsque vous créez un cluster Dataproc, vous pouvez activer le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité. Par ailleurs, le chiffrement au repos par défaut, OS Login, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK) font partie des fonctionnalités de sécurité propres à Google Cloud qui sont les plus fréquemment utilisées avec Dataproc.

Le meilleur de l'Open Source et le meilleur de Google Cloud réunis

Dataproc vous permet d'utiliser facilement les outils, les algorithmes et les langages de programmation Open Source que vous exploitez déjà, sur des ensembles de données dans le cloud. Parallèlement, Dataproc est intégré directement aux autres produits d'analyse, de base de données et d'IA de Google Cloud. Les data scientists et les ingénieurs peuvent rapidement accéder aux données et créer des applications de données connectant Dataproc à BigQuery, Vertex AI, Cloud Spanner, Pub/Sub ou Data Fusion

Découvrir toutes les fonctionnalités

Documentation

Documentation

API et bibliothèques
Actions d'initialisation Dataproc

Ajoutez d'autres projets OSS à vos clusters Dataproc avec des actions d'initialisation prédéfinies.

API et bibliothèques
Connecteurs Open Source

Bibliothèques et outils pour l'interopérabilité Apache Hadoop

API et bibliothèques
Modèles de flux de travail Dataproc

L'API WorkflowTemplates de Dataproc offre un procédé souple et convivial pour la gestion et l'exécution des workflows.

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Transférer vos clusters Hadoop et Spark vers le cloud

Les entreprises migrent leurs clusters Apache Hadoop et Spark sur site vers Dataproc pour gérer les coûts et bénéficier d'une évolutivité flexible. Avec Dataproc, elles disposent d'un cluster sur mesure qui est entièrement géré et peut s'adapter automatiquement pour gérer n'importe quelle tâche de traitement d'analyses ou de données. 

Toutes les fonctionnalités

Toutes les fonctionnalités

Clusters redimensionnables Créez des clusters et faites-les évoluer rapidement avec différents paramètres : types de machines virtuelles, tailles de disque, nombre de nœuds et options de mise en réseau.
Autoscaling des clusters L'autoscaling Dataproc fournit un mécanisme pour automatiser la gestion des ressources de cluster, et permet l'ajout et le retrait automatiques de nœuds de calcul dans le cluster.
Intégration au cloud Grâce à l'intégration avec Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring et AI Hub, vous bénéficiez d'une plate-forme de données plus robuste et plus complète.
Gestion des versions La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
Haute disponibilité Pour garantir la haute disponibilité de vos clusters et de vos tâches, exécutez les clusters en mode haute disponibilité avec plusieurs nœuds principaux, et paramétrez vos tâches de sorte qu'elles redémarrent en cas d'échec.
Suppression planifiée de clusters Pour éviter que des frais ne vous soient facturés pour un cluster inactif, vous pouvez utiliser la fonctionnalité de suppression planifiée de Dataproc, qui permet de supprimer un cluster après un délai d'inactivité spécifié, à une date et une heure ultérieures données ou après une période déterminée.
Configuration automatique ou manuelle Dataproc configure automatiquement le matériel et les logiciels tout en permettant un contrôle manuel.
Outils pour les développeurs Vous pouvez gérer vos clusters à l'aide d'une interface utilisateur Web conviviale, du SDK Cloud, des API RESTful, de l'accès SSH et d'autres méthodes.
Actions d'initialisation Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Composants facultatifs Vous pouvez installer et configurer des composants facultatifs sur le cluster. Intégrés aux composants Dataproc, les composants facultatifs offrent des environnements entièrement configurés pour Zeppelin, Druid, Presto et d'autres composants logiciels Open Source liés à l'écosystème Apache Hadoop/Apache Spark.
Images personnalisées Les clusters Dataproc peuvent être provisionnés avec une image personnalisée incluant vos packages de système d'exploitation Linux préinstallés.
Machines virtuelles flexibles Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.
Passerelle des composants et accès à des notebooks La passerelle des composants Dataproc permet un accès sécurisé, en un seul clic, aux interfaces Web des composants par défaut et facultatifs de Dataproc qui s'exécutent sur le cluster.
Modèles de workflows Les modèles de workflows Dataproc offrent un procédé souple et convivial pour gérer et exécuter des workflows. Un modèle de workflow est une configuration de workflow réutilisable qui définit un graphe des tâches avec des informations sur leur emplacement d'exécution.

Tarification

Tarification

Les tarifs de Dataproc sont basés sur le nombre de processeurs virtuels et la durée de leur exécution. Même si des tarifs horaires sont indiqués, nous appliquons une facturation à la seconde. Vous ne payez donc que ce que vous consommez.

Exemple : 6 clusters (1 nœud principal + 5 nœuds de calcul) de 4 processeurs exécutés chacun pendant 2 heures coûteraient 0,48 $. Frais Dataproc = nombre de processeurs virtuels x heures x tarif Dataproc = 24 x 2 x 0,01 = 0,48 $

Pour plus d'informations, consultez la page des tarifs.

Partenaires

Partenaires

Dataproc s'intègre aux solutions de partenaires stratégiques pour compléter vos compétences et investissements existants.