ISBN-13: 9786131585333 / Francuski / Miękka / 2018 / 116 str.
Ayant pour objectif de rendre un programme informatique capable d'assigner de facon autonome des documents textuels a leur classe d'appartenance, la categorisation automatique de textes est rendue possible grace a l'apprentissage supervise. Un entrainement du programme est effectue sur un ensemble de documents auxquels des etiquettes de categorie ont deja ete assignees par des humains. Or, la constitution de cet ensemble d'entrainement se revele un processus long et couteux. Ce memoire propose une facon d'ameliorer la capacite d'un classificateur a bien accomplir sa tache dans des situations ou un entrainement sur un nombre suffisant de textes n'aura pas ete possible. L'approche suggeree consiste a etudier une forme d'association, la cooccurrence, entre les mots provenant d'un ensemble de textes libelles et ceux provenant d'un ensemble de textes non libelles, plus volumineux. On espere ainsi augmenter a faible cout le vocabulaire utile a la classification de textes, en minimisant le nombre de documents a etiqueter."
Ayant pour objectif de rendre un programme informatique capable dassigner de façon autonome des documents textuels à leur classe dappartenance, la catégorisation automatique de textes est rendue possible grâce à lapprentissage supervisé. Un entraînement du programme est effectué sur un ensemble de documents auxquels des étiquettes de catégorie ont déjà été assignées par des humains. Or, la constitution de cet ensemble dentraînement se révèle un processus long et coûteux. Ce mémoire propose une façon daméliorer la capacité dun classificateur à bien accomplir sa tâche dans des situations où un entraînement sur un nombre suffisant de textes naura pas été possible. Lapproche suggérée consiste à étudier une forme dassociation, la cooccurrence, entre les mots provenant dun ensemble de textes libellés et ceux provenant dun ensemble de textes non libellés, plus volumineux. On espère ainsi augmenter à faible coût le vocabulaire utile à la classification de textes, en minimisant le nombre de documents à étiqueter.