ISBN-13: 9786209479960 / Niemiecki / Miękka / 2026 / 52 str.
Hadoop, die Open-Source- und Java-basierte Implementierung des Map/Reduce-Frameworks der Apache Software Foundation, ist ein verteiltes Computing-Framework, das für datenintensive verteilte Anwendungen entwickelt wurde. Es bietet Tools für die Verarbeitung großer Datenmengen mithilfe des Map/Reduce-Frameworks und implementiert darüber hinaus ein verteiltes Dateisystem, das dem Dateisystem von Google ähnelt. Es kann verwendet werden, um große Datenmengen parallel auf großen Clustern auf zuverlässige und fehlertolerante Weise zu verarbeiten. Java wird seit langem von vielen Programmierern für die Datenverarbeitung verwendet. In diesem Buch haben wir die Leistung von Hadoop mit Java, Hadoop mit Hadoop Optimize und Hadoop Optimize mit Java anhand verschiedener Leistungskriterien wie Verarbeitung (CPU-Auslastung), Speicher und Effizienz bei der Datenverarbeitung verglichen und analysiert. Unsere Versuchsergebnisse zeigen eine Verbesserung der Ausführungszeit bei Verwendung des optimierten Map/Reduce-Algorithmus. Beim Vergleich von Hadoop und Java ist Hadoop besser, wenn wir einen Multi-Node-Cluster haben und die Datenmenge groß ist. Wenn wir jedoch einen einzelnen Node und eine kleine Datenmenge haben, kann sogar Java eine bessere Leistung erzielen.