ISBN-13: 9786204993645 / Miękka / 52 str.
Die Zahl der Textdokumente nimmt in unglaublichem Tempo zu, und sehr oft besteht die Notwendigkeit, diese Dokumente in bestimmte vordefinierte Kategorien einzuordnen. Die Konzepte des Text Mining und des maschinellen Lernens sind bei dieser Aufgabe der automatischen Klassifizierung von Dokumenten sehr hilfreich. Da die Klassifizierung automatisch erfolgt, muss der Klassifizierer gut sein, damit möglichst wenige Fehlklassifizierungen auftreten. Daher ist die Klassifizierungsgenauigkeit sehr wichtig und muss beachtet werden. Es gibt verschiedene Faktoren, die die Klassifizierungsgenauigkeit von Klassifizierern beeinflussen können. Einer dieser Faktoren ist die Methode der Merkmalsauswahl, mit der die Anzahl der Merkmale in den Dokumenten reduziert wird. Der Informationsgewinn (Information Gain, IG) ist eine der populärsten Methoden, die für diese Aufgabe eingesetzt werden, aber diese Methode zur Bewertung der besseren Wörter weist einige Mängel auf. In unserer Arbeit haben wir eine neue Formel entwickelt, um die Wörter in den Dokumenten zu bewerten und so die besseren Wörter zu finden, die für die Klassifizierungsaufgabe nützlicher sind. Unsere Methode zielt darauf ab, diejenigen Wörter zu finden, die eine höhere Unterscheidungskraft als andere haben, und deshalb haben wir unsere Formel Discriminating Power (DP) genannt.