ISBN-13: 9783656093336 / Niemiecki / Miękka / 2012 / 72 str.
ISBN-13: 9783656093336 / Niemiecki / Miękka / 2012 / 72 str.
Diplomarbeit aus dem Jahr 2011 im Fachbereich Informatik - Sonstiges, Note: 1,3, Ludwig-Maximilians-Universitat Munchen (Centrum fur Informations- und Sprachverarbeitung), Veranstaltung: Computerlinguistik, Information Extraktion, Informatik, Sprache: Deutsch, Abstract: Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhoht die Wahrscheinlichkeit dem Benutzer prazise und seinen Anspruchen adaquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehoren zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berucksichtigen. Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus fur die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an. Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Losungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert. Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen uber Textkorpora gegeben, einzelne Preprozessing-Schritte erlautert, lokale Grammatiken von Stellenanzei