ISBN-13: 9786204765761 / Miękka / 60 str.
Die Erkundung und Nutzung großer Mengen von Textdokumenten ist eine wichtige Frage im Bereich Information Retrieval und Text Mining. Alle Methoden, die darauf abzielen, Gruppen von Entitäten zu finden, verwenden Ähnlichkeits- oder Unähnlichkeitsmaße. Es ist notwendig zu analysieren, wie sich Ähnlichkeitsmaße auf Textdokumenten verhalten, bevor ein gutes Ähnlichkeitsmaß für das Clustering von Dokumenten entwickelt oder modifiziert wird, um die Effektivität der Technik zu verstehen. Eine Ähnlichkeitsfunktion, die in eine Kriteriumsfunktion eingebettet ist, ist zu einem großen Teil dafür verantwortlich, die intrinsische Struktur der Daten zu analysieren. Wenn geeignete Ähnlichkeitsmaße mit einer bestimmten Clustering-Technik verwendet werden, kann die Effizienz und Genauigkeit der Informationsentdeckungsaufgabe verbessert werden. Die Verwendung geeigneter Maße verbessert nicht nur die Herkunft und Glaubwürdigkeit der abgerufenen Informationen, sondern hilft auch, die zeitliche und finanzielle Komplexität des Prozesses zu überwinden. Dieses Buch konzentriert sich auf die Identifizierung der verschiedenen Ähnlichkeitsmaße für das Clustering. Es wird eine zwingende Methode zur Messung der Ähnlichkeit zwischen Textdokumenten veranschaulicht, um die Dokumente mit Hilfe von hierarchischem Clustering und Feature-Selection-Methoden unter Verwendung von Matlab zu clustern.