ISBN-13: 9783656440475 / Niemiecki / Miękka / 2013 / 106 str.
ISBN-13: 9783656440475 / Niemiecki / Miękka / 2013 / 106 str.
Masterarbeit aus dem Jahr 2012 im Fachbereich Informatik - Angewandte Informatik, Note: 1.0, Hochschule fur Technik und Wirtschaft Berlin, Sprache: Deutsch, Abstract: Die escape GmbH betreibt ein MySQL basiertes Dataware-House in das Daten aus verschiedenen Webprasenzen flieen, um dort ausgewertet zu werden. Nach Jahren des erfolgreichen Betriebs nimmt mit der standig steigenden Menge an gespeicherten Daten die Leistung des Systems allerdings ab. Die Laufzeiten fur Auswertungen steigen und die Agilitat sinkt. Kleine Optimierungen und Veranderungen des Systems konnen das Unbrauchbarwerden hinauszogern, als aber aus Grunden der Leistung auf einen Teil der Abfragen verzichtet werden muss, wird schlielich klar, dass nur eine grundlegende Veranderung des Systems den langfristigen Betrieb sicherstellen kann. Aus diesem Grund wurde nach Technologien gesucht, deren Fahigkeiten die Leistung des bestehenden Dataware-Houses verbessern konnen. Dies fuhrte zu Hadoop Fouc] Whi10a], einem Open Source Framework, welches die Verarbeitung von riesigen Datenmengen in einem Cluster erlaubt. Diese Arbeit untersucht, wie Komponenten des bisherigen Systems durch Dienste von Hadoop ersetzt werden konnen. Sie wertet die Moglichkeiten zur Strukturierung von Daten in einer spaltenbasierten Datenbank aus, evaluiert in einem Benchmark, wie sich die Zeit von Abfragen im Verhaltnis zu einer stetig steigenden Datenmenge verhalt und analysiert detailliert den Ressourcenverbrauch des Clusters und dessen Knoten. Die Implementierung zeigt, dass sich die spaltenbasierten Datenbank HBase sehr gut zum Speichern von einer sehr groen Menge an semistrukturierten Daten eignet und die Dataware-House Komponente Hive durch die Unterstutzung eines SQL ahnlichen Syntax das Erstellen von Abfragen komfortabel ermoglicht. Die Literatur beschreibt, dass HBase automatisch linear mit dem Hinzufugen von neuen Knoten skaliert. Der durchgefuhrte Benchmark zeigt, dass die Ausfuhrungs-Zeit der getesteten Abfragen fast g