• Themen
  • Was ist Apache Hadoop?

Was ist Apache Hadoop?

Die Apache-Hadoop-Software ist ein Open-Source-Framework zur verteilten Speicherung und Verarbeitung großer Datasets auf Clustern von Computern anhand einfacher Programmiermodelle. Hadoop lässt sich von einem einzigen Computer bis auf Tausende Computer in einem Cluster skalieren, die jeweils ihre lokale Rechenleistung und Speicherkapazität bereitstellen. Dadurch kann Hadoop große Datasets im Bereich zwischen einigen Gigabyte und einigen Petabyte effizient speichern und verarbeiten.

Erfahren Sie, wie Sie mit Dataproc Apache Hadoop-Cluster in Google Cloud einfach, integriert und kostengünstig ausführen können.

Übersicht

Das primäre Hadoop-Framework besteht aus vier Modulen, die zusammen das Hadoop-System bilden:

Hadoop Distributed File System (HDFS): HDFS ist die Hauptkomponente des Hadoop-Systems. Als verteiltes Dateisystem kann es mit hohem Durchsatz auf Anwendungsdaten zugreifen und erfordert keine vorab definierten Schemas.

Yet Another Resource Negotiator (YARN): YARN ist eine Plattform zur Ressourcenverwaltung. Sie verwaltet die Rechenressourcen in Clustern und plant mit ihnen die Anwendungen von Nutzern. YARN führt die Planung und Ressourcenzuweisung im gesamten Hadoop-System durch.

MapReduce: MapReduce ist ein Programmiermodell für die Verarbeitung großer Datenmengen. Mithilfe von Algorithmen für verteilte und parallele Berechnung ermöglicht MapReduce die Übertragung von Verarbeitungslogik und die Entwicklung von Anwendungen, die große Datasets in einen handhabbaren Datensatz verwandeln.

Hadoop Common: Hadoop Common umfasst die Bibliotheken und Dienstprogramme, die von anderen Hadoop-Modulen genutzt und freigegeben werden. 

Hadoop-Module sind so konzipiert, dass häufige Hardwareausfälle bei einzelnen Rechnern oder ganzen Racks automatisch durch die Software im Framework behoben werden. Die Apache Hadoop-Komponenten MapReduce und HDFS basieren auf MapReduce von Google und Veröffentlichungen zum Google File System (GFS).

Über HDFS, YARN und MapReduce hinaus wächst das gesamte Open-Source-System von Hadoop ständig weiter und umfasst viele Tools und Anwendungen zum Erfassen, Speichern, Verarbeiten, Analysieren und Verwalten von Big Data. Dazu zählen u. a. Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto und Apache Zeppelin.

Welche Vorteile bietet Hadoop?

Fehlertoleranz

Wenn in einem Hadoop-System Jobs auf einem großen Cluster ausgeführt werden und bei einzelnen Knoten hohe Ausfallraten auftreten, werden die Daten auf ein Cluster repliziert, sodass sie im Falle eines Festplatten-, Knoten- oder Rackausfalls einfach wiederhergestellt werden können.

Kostenkontrolle

Durch die günstigere Datenspeicherung pro Terabyte im Vergleich zu anderen Plattformen lassen sich mit Hadoop deutliche Kosteneinsparungen realisieren. Im Gegensatz zu anderen Lösungen, bei denen Tausende oder Zehntausende Dollar pro Terabyte für Hardware ausgegeben werden müssen, stellt Hadoop Rechen- und Speicherkapazität auf erschwinglicher Standardhardware bereit. Die Kosten pro Terabyte liegen dadurch bei einigen Hundert Dollar.

Innovatives Open-Source-Framework

Hadoop wird durch Communities weltweit unterstützt. Sie führen neue Konzepte und Funktionen schneller und effektiver ein als interne Teams, die an unternehmenseigenen Lösungen arbeiten. Durch ihre kollektive Leistungsfähigkeit kann eine Open-Source-Community Innovationen vorantreiben, die Entwicklung beschleunigen und Fehler schneller beheben, sodass sich die Markteinführung von Produkten verkürzen lässt.

Warum ist Hadoop wichtig?

Apache Hadoop entstand aus der Notwendigkeit heraus, die Flut von Big Data schneller und zuverlässiger zu verarbeiten. Hadoop stellt eine komplette Open-Source-Softwareumgebung bereit, die immer mehr datengestützte Unternehmen zum Speichern und Parsen von Big Data einsetzen. Anstatt zur Bereitstellung der benötigten Hochverfügbarkeit auf Hardware zu setzen, verfolgt Hadoop einen verteilten Ansatz, bei dem Ausfälle auf der Anwendungsebene erkannt und behoben werden. So entsteht ein hochverfügbarer Dienst auf einem Computercluster, der das Risiko einzelner Rechnerausfälle minimiert.

Anstatt einen großen Computer zum Speichern und Verarbeiten von Daten zu verwenden, nutzt Hadoop Cluster aus mehreren Computern, um riesige Datasets parallel zu analysieren. Hadoop kann verschiedene Formen strukturierter und unstrukturierter Daten verarbeiten. Dadurch können Unternehmen Big Data schneller und flexibler erfassen, verarbeiten und analysieren, als es mit relationalen Datenbanken oder Data Warehouses möglich ist.

Wofür wird Apache Hadoop eingesetzt?

Hier sind einige gängige Anwendungsfälle für Apache Hadoop:

Analyse und Big Data

Unternehmen und Organisationen jeder Art nutzen Hadoop für die Forschung, die Verarbeitung von Produktionsdaten und Analysen, bei denen Terabyte oder Petabyte an Big Data verarbeitet, unterschiedliche Datasets gespeichert und Daten parallel verarbeitet werden müssen.

Vertikale Branchen

Unternehmen in zahllosen Branchen und Sektoren, u. a. Technologie, Bildung, Gesundheitswesen und Finanzdienstleistungen, nutzen Hadoop für Aufgaben, die sich dadurch auszeichnen, dass sie strukturierte und unstrukturierte Daten unterschiedlichster Art, Menge und Geschwindigkeit umfassen.  

KI und maschinelles Lernen

Hadoop-Systeme spielen auch eine wichtige Rolle bei der Entwicklung von Anwendungen für künstliche Intelligenz und maschinelles Lernen.

Cloud-Computing

Unternehmen entscheiden sich häufig dafür, Hadoop-Cluster in öffentlichen, privaten oder Hybrid-Clouds anstatt auf lokaler Hardware einzusetzen. Dadurch gewinnen sie an Flexibilität, Verfügbarkeit und Kostenkontrolle. Viele Anbieter von Cloud-Lösungen bieten vollständig verwaltete Dienste für Hadoop an, z. B. Dataproc von Google Cloud. Dank solcher vorkonfigurierter Dienste für cloudnatives Hadoop lassen sich Vorgänge, die bisher Stunden oder Tage dauerten, nun in Sekunden oder Minuten durchführen. Die Unternehmen zahlen dabei nur für die eingesetzten Ressourcen.

Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Cloud-Dienst, über den Sie Cluster mit Apache Spark und Apache Hadoop einfach, integriert und kostengünstig ausführen können. Der Dienst lässt sich vollständig mit anderen Google Cloud-Diensten integrieren, die hohe Anforderungen an Sicherheit, Governance und Support erfüllen. Dadurch erhalten Sie eine umfassende, leistungsfähige Plattform für Datenverarbeitung, Analysen und maschinelles Lernen.

Tools von Google Cloud zur Big-Data-Analyse, wie Dataproc, BigQuery, AI Platform Notebooks und Dataflow, ermöglichen Ihnen, Anwendungen mit viel Kontext zu entwickeln, neue Analyselösungen zu entwickeln und Daten in verwertbare Informationen zu verwandeln.