ISBN-13: 9783656524717 / Niemiecki / Miękka / 2013 / 112 str.
ISBN-13: 9783656524717 / Niemiecki / Miękka / 2013 / 112 str.
Diplomarbeit aus dem Jahr 2007 im Fachbereich Informatik - Programmierung, Note: 1,0, Westfalische Wilhelms-Universitat Munster (Institut fur Informatik (Computer Vision and Pattern Recognition Group)), 35 Quellen im Literaturverzeichnis, Sprache: Deutsch, Abstract: Ziel dieser Arbeit ist es, die Klassifikationskomponente des am Institut fur Informatik entwickelten OCR-Systems zur Erkennung von gerendertem Text durch die Implementierung eines Multi-Classifier-Systems (MCS) weiter zu optimieren. Diese Arbeit befasst sich mit dem Design und der Implementierung eines Multi-Classifier-Systems, das mehrere verschiedene Klassifikatoren zur Erkennung gerenderter Schriftzeichen kombiniert. Das MCS wird schliesslich in das existierende OCR-System integriert, um dessen Effektivitat zu verbessern. Kapitel 2 befasst sich zunachst mit Analyse und Beurteilung des vorliegenden OCR-Systems. Kapitel 2.1 identifiziert hierzu konkrete Eigenschaften gerenderter Texte und die damit einhergehenden Herausforderungen bei der automatischen Texterkennung. Kapitel 2.2 stellt das bestehende OCR-Systems zur Erkennung von gerendertem Text vor, dessen Komponenten in Kapitel 2.3 analysiert werden, um das weitere Vorgehen im Hinblick auf das Ziel dieser Arbeit zu planen. Kapitel 3 befasst sich mit der Schaffung der fur die Entwicklung des MCS notwendigen Voraussetzungen. Das betrifft insbesondere die dem OCR-System zu Grunde liegenden Trainingsdaten, auf deren Basis es entwickelt und getestet wurde. In Kapitel 3.1 wird dafur zun]achst eine Kategorisierung von gerendertem Text vorgenommen, anhand der sich die Zusammensetzung bereits existierender Trainingsdaten untersuchen l]asst. Damit die Trainingsdaten in einem sinnvollen Format vorliegen, wurde die Datenhaltung ]uberarbeitet. Kapitel 3.2 stellt diese uberarbeitung vor. Die identifizierten Kategorien werden dann herangezogen, um in Kapitel 3.3 eine strategische Erweiterung der Datenbasis vorzunehmen. Kapitel 4 leitet zum Kern der Arbeit uber: A