ISBN-13: 9786204993713 / Francuski / Miękka / 52 str.
Le nombre de documents textuels augmente à une vitesse incroyable et, très souvent, il est nécessaire de classer ces documents dans des catégories fixes prédéfinies. Les concepts de text mining et d'apprentissage automatique sont d'une grande aide dans cette tâche de classification automatique des documents. Puisque la classification est effectuée automatiquement, le classificateur doit être un bon classificateur afin qu'il y ait le moins d'erreurs de classification possible. Par conséquent, la précision de la classification est très importante et doit être prise en compte. Plusieurs facteurs peuvent affecter la précision de classification des classificateurs. L'un de ces facteurs est la méthode de sélection des caractéristiques utilisée pour réduire le nombre de caractéristiques dans les documents. Le gain d'information (IG) est l'une des méthodes les plus populaires utilisées pour cette tâche, mais cette méthode d'évaluation des meilleurs mots présente quelques lacunes. Dans notre travail, nous avons conçu une nouvelle formule pour évaluer les mots dans les documents et ainsi trouver les meilleurs mots qui sont plus utiles dans la tâche de classification. Notre méthode vise à trouver les mots qui ont un pouvoir de discrimination plus élevé que les autres et, par conséquent, nous avons nommé notre formule "pouvoir de discrimination" (DP).