ISBN-13: 9786206345428 / Niemiecki / Miękka / 72 str.
Überall auf der Welt werden enorme Datenmengen gesammelt und in Datenbanken gespeichert. Diese Daten werden gebündelt und nehmen jedes Jahr zu. Das Extrahieren von Informationen, die in solchen Datenbanken verborgen sind, und das Klassifizieren der extrahierten Informationen sind die wichtigsten Aufgaben beim Data Mining. Wenn solche Datensätze unausgewogen sind, wird es schwierig, sie zu verarbeiten. Denn die Vorhersage der Zukunft ist eine der grundlegenden Aufgaben im Data Mining. Die Arbeit mit unausgewogenen Datensätzen zur Vorhersage der möglichen Ergebnisse ist eine sehr mühsame Aufgabe. Ein Datensatz ist unausgewogen, wenn er nicht korrekt klassifiziert ist, wenn eine Klasse mehr Instanzen enthält als andere. Sie werden oft als positive Klasse (Minderheit) und negative Klasse (Mehrheit) dargestellt. Die Klasse mit der geringeren Anzahl von Stichproben wird als Minderheitsklasse bezeichnet, die mit der höheren Anzahl als Mehrheitsklasse. Ein unausgewogener Datensatz verursacht viele schwerwiegende Probleme beim Data Mining, da der Standard-Klassifizierungsalgorithmus den Datensatz meist als ausgewogen betrachtet, was wiederum zu einer partiellen Bevorzugung der Mehrheitsklasse führt. Bei Anwendungen wie der medizinischen Diagnose hat dies sehr schwerwiegende Auswirkungen. Daher ist ein ausgeglichener Datensatz für viele Echtzeitanwendungen entscheidend.