ISBN-13: 9786131526275 / Francuski / Miękka / 2018 / 272 str.
La recherche d'information (RI) dans des documents semi-structurA(c)s (A(c)crits en XML en pratique) combine des aspects de la RI traditionnelle et ceux de l'interrogation de bases de donnA(c)es. La structure a une importance primordiale, mais le besoin d'information reste vague. L'unitA(c) de recherche est variable (un paragraphe, une figure, un article complet...). Par ailleurs, la flexibilitA(c) du langage XML autorise des manipulations du contenu qui provoquent parfois des ruptures arbitraires dans le flot naturel du texte. Les problA]mes posA(c)s par ces caractA(c)ristiques sont nombreux, que ce soit au niveau du prA(c)-traitement des documents ou de leur interrogation. Face A ces problA]mes, nous avons A(c)tudiA(c) les solutions spA(c)cifiques que pouvait apporter le traitement automatique de la langue (TAL). Nous avons ainsi proposA(c) un cadre thA(c)orique et une approche pratique pour permettre l'utilisation des techniques d'analyse textuelle en faisant abstraction de la structure. Nous avons A(c)galement conAu une interface d'interrogation en langage naturel pour la RI dans les documents XML, et proposA(c) des mA(c)thodes tirant profit de la structure pour amA(c)liorer la recherche des A(c)lA(c)ments pertinents.
La recherche dinformation (RI) dans des documents semi-structurés (écrits en XML en pratique) combine des aspects de la RI traditionnelle et ceux de linterrogation de bases de données. La structure a une importance primordiale, mais le besoin dinformation reste vague. Lunité de recherche est variable (un paragraphe, une figure, un article complet...). Par ailleurs, la flexibilité du langage XML autorise des manipulations du contenu qui provoquent parfois des ruptures arbitraires dans le flot naturel du texte. Les problèmes posés par ces caractéristiques sont nombreux, que ce soit au niveau du pré-traitement des documents ou de leur interrogation. Face à ces problèmes, nous avons étudié les solutions spécifiques que pouvait apporter le traitement automatique de la langue (TAL). Nous avons ainsi proposé un cadre théorique et une approche pratique pour permettre lutilisation des techniques danalyse textuelle en faisant abstraction de la structure. Nous avons également conçu une interface dinterrogation en langage naturel pour la RI dans les documents XML, et proposé des méthodes tirant profit de la structure pour améliorer la recherche des éléments pertinents.