ISBN-13: 9783841639639 / Francuski / Miękka / 2016 / 140 str.
Le clustering est une tA che centrale du processus d'exploration de donnA(c)es et de dA(c)couverte de connaissances. De nos jours, l'abondance de donnA(c)es et l'augmentation continue de leur volume imposent aux algorithmes de clustering de s'amA(c)liorer et de s'adapter selon les aspects suivants: qualitA(c), vitesse, passage A A(c)chelle. Pour toutes ces raisons, le domaine du clustering est toujours extrAamement actif. Le clustering semi-supervisA(c) est ainsi devenu depuis une dizaine d'annA(c)es une piste de recherche trA]s intA(c)ressante dont le but est de dA(c)velopper des algorithmes de clustering qui permettent A un expert humain d'intA(c)grer des connaissances du domaine pour amA(c)liorer la pertinence des analyses. Ces connaissances peuvent Aatre exprimA(c)es soit par un ensemble de donnA(c)es A(c)tiquetA(c)es (des seeds) ou soit par un ensemble de contraintes. Pour rA(c)pondre A ces problA]mes, cet ouvrage s'articule autour de deux contributions principales: (1) des mA(c)thodes intelligentes pour la sA(c)lection de contraintes ou de donnA(c)es A(c)tiquetA(c)es (les seeds) intA(c)grA(c)es A des algorithmes actifs et (2) de nouveaux algorithmes de clustering semi-supervisA(c) qui amA(c)liorent les mA(c)thodes dA(c)crites dans la littA(c)rature.
Le clustering est une tâche centrale du processus d'exploration de données et de découverte de connaissances. De nos jours, l'abondance de données et l'augmentation continue de leur volume imposent aux algorithmes de clustering de s'améliorer et de s'adapter selon les aspects suivants : qualité, vitesse, passage à échelle. Pour toutes ces raisons, le domaine du clustering est toujours extrêmement actif. Le clustering semi-supervisé est ainsi devenu depuis une dizaine d'années une piste de recherche très intéressante dont le but est de développer des algorithmes de clustering qui permettent à un expert humain d'intégrer des connaissances du domaine pour améliorer la pertinence des analyses. Ces connaissances peuvent être exprimées soit par un ensemble de données étiquetées (des seeds) ou soit par un ensemble de contraintes. Pour répondre à ces problèmes, cet ouvrage s'articule autour de deux contributions principales : (1) des méthodes intelligentes pour la sélection de contraintes ou de données étiquetées (les seeds) intégrées à des algorithmes actifs et (2) de nouveaux algorithmes de clustering semi-supervisé qui améliorent les méthodes décrites dans la littérature.