• Sujets
  • Qu'est-ce que Apache Hadoop ?

Qu'est-ce que Apache Hadoop ?

Le logiciel Apache Hadoop est un framework Open Source qui permet le traitement et le stockage distribués de grands ensembles de données par des clusters d'ordinateurs à l'aide de modèles de programmation simples. Hadoop est conçu pour passer d'un seul ordinateur à des milliers d'ordinateurs en cluster, où chaque machine fournit localement des ressources de calcul et de stockage. Hadoop peut ainsi stocker et traiter efficacement de grands ensembles de données, dont la taille peut aller de quelques gigaoctets à plusieurs pétaoctets.

Découvrez comment utiliser Dataproc pour exécuter des clusters Apache Hadoop sur Google Cloud de manière plus simple, plus économique et intégrée.

Présentation d'Apache Hadoop

Le framework Hadoop principal comprend quatre modules qui fonctionnent ensemble pour former l'écosystème Hadoop :

Hadoop Distributed File System (HDFS) : composant principal de l'écosystème Hadoop, HDFS est un système de fichiers distribué qui fournit un accès haut débit aux données d'application, sans avoir à définir de schémas au départ.

Yet Another Resource Negotiator (YARN) : YARN est une plate-forme qui permet de gérer les ressources de calcul dans les clusters et de les utiliser pour planifier les applications des utilisateurs. Elle assure la planification et l'allocation des ressources sur le système Hadoop.

MapReduce : MapReduce est un modèle de programmation qui permet de traiter de grands volumes de données. Grâce à des algorithmes de calcul parallèles et distribués, MapReduce permet de transférer une logique de traitement et d'écrire des applications qui transforment de grands volumes de données en un ensemble gérable.

Hadoop Common : Hadoop Common inclut les utilitaires et les bibliothèques utilisés et partagés par les autres modules Hadoop.

Tous les modules Hadoop sont conçus en partant du principe de base que les défaillances matérielles de machines individuelles ou de racks de machines sont courantes et qu'elles devraient être gérées automatiquement dans le logiciel par le framework. Les composants MapReduce et HDFS d'Apache Hadoop sont calqués sur Google MapReduce et Google File System (GFS).

Outre HDFS, YARN et MapReduce, l'ensemble de l'écosystème Open Source de Hadoop ne cesse d'évoluer et inclut de nombreux outils et applications qui facilitent la collecte, le stockage, le traitement, l'analyse et la gestion du big data. On y trouve Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto et Apache Zeppelin.

Quels sont les avantages de Hadoop ?

Tolérance aux pannes

Dans l'écosystème Hadoop, bien que le taux de défaillance de nœuds individuels soit élevé lors de l'exécution de tâches sur un grand cluster, les données sont répliquées sur un cluster de manière à pouvoir les récupérer facilement en cas de panne de disque, de nœud ou de rack.

Contrôle des coûts

Hadoop contrôle les coûts en stockant les données pour un coût moins élevé par téraoctet que sur d'autres plates-formes. Au lieu de dépenser des milliers ou des dizaines de milliers de dollars par téraoctet pour le matériel, Hadoop fournit des ressources de calcul et de stockage sur un matériel courant standard et abordable pour quelques centaines de dollars par téraoctet.

Innovation du framework Open Source

Hadoop s'appuie sur des communautés mondiales qui unissent leurs forces pour introduire de nouveaux concepts et fonctionnalités plus rapidement et plus efficacement que les équipes internes qui travaillent sur des solutions propriétaires. Le pouvoir de collaboration d'une communauté Open Source permet non seulement de générer plus d'idées, mais également d'accélérer le développement et de résoudre plus rapidement les éventuels problèmes, ce qui se traduit par un temps de production plus court.

En quoi Hadoop peut-il vous aider ?

Apache Hadoop est né du besoin de traiter plus rapidement et avec une plus grande fiabilité d'énormes volumes de données, ou big data. Hadoop fournit un écosystème entier de logiciels Open Source qui est de plus en plus déployé par les entreprises basées sur les données pour stocker et analyser les données. Au lieu d'assurer la haute disponibilité critique au niveau du matériel, Hadoop, de par sa nature distribuée, est conçu pour détecter et gérer les défaillances au niveau de la couche d'application. Il fournit ainsi un service haute disponibilité sur un cluster d'ordinateurs pour réduire les risques de défaillance des machines indépendantes.

Au lieu d'utiliser un seul gros ordinateur pour stocker et traiter les données, Hadoop fait appel à des clusters de plusieurs ordinateurs pour analyser de grands ensembles de données en parallèle. Hadoop peut gérer plusieurs types de données structurées et non structurées, ce qui permet aux entreprises de collecter, de traiter et d'analyser le big data de manière plus rapide et flexible qu'avec des bases de données et des entrepôts de données.

Comment est utilisé Apache Hadoop ?

Voici quelques cas d'utilisation courants d'Apache Hadoop :

Analyse et big data

Une grande variété d'entreprises et d'organisations utilisent Hadoop pour la recherche, le traitement de données de production et l'analyse qui impliquent le traitement de téraoctets ou pétaoctets de données, le stockage de divers ensembles de données et le traitement de données en parallèle.

Industries verticales

Les entreprises de nombreux secteurs, tels que la technologie, l'éducation, la santé et les services financiers, utilisent Hadoop pour réaliser des tâches aux caractéristiques similaires, à savoir une variété, une vitesse et un volume importants de données structurées et non structurées.  

IA et machine learning

Les écosystèmes Hadoop jouent également un rôle important de soutien au développement de l'intelligence artificielle et des applications de machine learning.

Cloud computing

Les entreprises préfèrent souvent exécuter les clusters Hadoop sur des ressources cloud publiques, privées ou hybrides plutôt que sur un matériel sur site, afin de gagner en flexibilité, en disponibilité et en contrôle des coûts. De nombreux fournisseurs de solutions cloud offrent des services entièrement gérés pour Hadoop, tels que Dataproc de Google Cloud. Grâce à ce type de service préinstallé pour Hadoop cloud natif, les opérations qui prenaient autrefois des heures ou des jours sont désormais l'affaire de quelques secondes ou minutes, et les entreprises ne sont facturées que pour les ressources utilisées.

Dataproc est un service cloud rapide, facile à utiliser et entièrement géré qui permet d'exécuter des clusters Apache Spark et Apache Hadoop de manière plus simple, plus économique et intégrée. Il s'intègre parfaitement à d'autres services Google Cloud qui répondent aux besoins critiques en matière de sécurité, de gouvernance et d'assistance, en vous permettant d'accéder à une plate-forme complète et puissante pour le traitement, l'analyse et le machine learning.

Les outils d'analyse du big data de Google Cloud, tels que Dataproc, BigQuery, AI Platform Notebooks et Dataflow, vous permettent de créer des applications qui tiennent compte du contexte, de concevoir de nouvelles solutions d'analyse et de transformer les données en insights exploitables.