ISBN-13: 9783838144023 / Francuski / Miękka / 2018 / 200 str.
Cet ouvrage porte sur l'indexation et l'interrogation de pages Web. Nous prA(c)sentons le modA]le BlockWeb, qui s'appuie sur une dA(c)composition de pages Web en une hiA(c)rarchie de blocs visuels et prend en compte l'importance visuelle de chaque bloc et la permA(c)abilitA(c) des blocs au contenu de leurs blocs voisins dans la page. Cette dA(c)composition permet notamment d'effectuer une interrogation A une granularitA(c) plus fine que la page: les blocs les plus similaires A une requAate sont Aatre renvoyA(c)s A la place de la page complA]te. Une page est reprA(c)sentA(c)e sous forme d'un graphe acyclique orientA(c) dont chaque noeud est associA(c) A un bloc et A(c)tiquetA(c) par son importance et chaque arc est A(c)tiquetA(c) par la permA(c)abilitA(c) du bloc cible au bloc source. Afin de construire ce graphe A partir de la reprA(c)sentation en arbre de blocs d'une page, nous proposons un nouveau langage: XIML (XML Indexing Management Language), qui est un langage de rA]gles. Ce modA]le a A(c)tA(c) expA(c)rimentA(c) sur deux applications distinctes: la recherche du meilleur point d'entrA(c)e sur un corpus d'articles de journaux A(c)lectroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006.
Cet ouvrage porte sur lindexation et linterrogation de pages Web. Nous présentons le modèle BlockWeb, qui sappuie sur une décomposition de pages Web en une hiérarchie de blocs visuels et prend en compte limportance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Cette décomposition permet notamment deffectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête sont être renvoyés à la place de la page complète. Une page est représentée sous forme dun graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par son importance et chaque arc est étiqueté par la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs dune page, nous proposons un nouveau langage : XIML (XML Indexing Management Language), qui est un langage de règles. Ce modèle a été expérimenté sur deux applications distinctes : la recherche du meilleur point dentrée sur un corpus darticles de journaux électroniques et lindexation et la recherche dimages sur un corpus de la campagne dImagEval 2006.