ISBN-13: 9783656969747 / Niemiecki / Miękka / 2015 / 24 str.
Studienarbeit aus dem Jahr 2012 im Fachbereich Ingenieurwissenschaften - Wirtschaftsingenieurwesen, Note: 1,0, Karlsruher Institut fur Technologie (KIT) (Institut fur Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)), Veranstaltung: Seminar Sprache und Semantik: statistische und symbolische Verfahren, Sprache: Deutsch, Abstract: Viele Kinder lernen es wahrscheinlich schon in der Grundschule: Mit bunten Farben werden die verschiedenen Wortarten in einem Satz unterstrichen. Das klingt eigentlich ganz einfach, doch fur den Computer ist es nicht so leicht, Texte zu lesen und zu verstehen wie fur den Menschen. Es bedarf zunachst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fahigkeit heranreicht und nach "Verstehen" der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet. Das Internet nimmt einen immer groeren Raum in unserer Gesellschaft ein. Alle moglichen wichtigen und unwichtigen Informationen sind dort offentlich zuganglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen konnen Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache ubersetzen. Automatisches Part-of-Speech Tagging ermoglicht genau diese Zuordnung maschinell. Haufig wird Part-of-Speech-Tagging als "solved task" bezeichnet, da die Exaktheit bis zu 98% betragt. Allerdings muss man dabei berucksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschlielich Zeitungstexte oder in ahnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind. Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textga