Studentenbeiträge Studentencampus

Texterkennung – Wie OCR meine Bachelorarbeit rettete

Eine Hand im Wasser greift nach einem Rettungsring, zum Thema OCR Texterkennung war meine Rettung im Studium
Geschrieben von Studiblog Staff

Texterkennung – Wie OCR meine Bachelorarbeit rettete.      

Geht es Dir auch so? Du hast keine Lust, bei deiner Bachelorarbeit ein theoretisches Thema zum hundertsten Mal wiederzukäuen und schon 1000x Geschriebenes noch ein weiteres Mal umzuformulieren. Du suchst dir also ein spannendes, außergewöhnliches, individuelles Thema für deine Bachelorarbeit und legst motiviert mit deiner Recherche los.

So ging es mir vor Kurzem. Ich konnte mich ehrlich für das Thema begeistern und los ging die Recherche im Internet, natürlich, wo sonst. Das Internet ist zwar als unerschöpfliche Quelle bekannt, aber das alleinig glücklich Machende ist es bekanntlich auch nicht. Unendliche viele Informationen, unendlich viele ungesicherte Quellen, genau so viele PDF-Datein, mit denen ich außer abtippen nichts anfangen kann, kurz, für mein Thema dann doch nicht das Richtige dabei. Das Internet beschäftigt sich eher mit den großen allgemeinen Zusammenhängen, die Entstehungsgeschichte unserer kleinen Dorfkirche findet im Internet kein Interesse. Dabei ist sie für Insider durchaus interessant.

Viele Stunden in der Unibibliothek brachten auch nicht den gewünschten Erfolg. Die Fachliteratur bewegt sich eher im allgemeinen Bla Bla: Bauweise, Zeitgeschichtliche Einordnung, allgemeine wirtschaftliche Situation ländlicher Gemeinden zur Entstehungszeit. Für ein paar einleitende Worte ganz nett, aber so richtig neue, speziell auf diese Kirche zugeschnittene Erkenntnisse sind da auch nicht dabei…

Inzwischen ist die Zeit weiter fortgeschritten und die Rechercheergebnisse mager. Und außer einem kleinen Kirchenführer habe ich noch nichts Spezifisches gefunden.

Der Schock im Kirchenarchiv  – keine Chance ohne OCR Texterkennung

Also führt mich mein nächster Weg ins Kirchenarchiv. Und damit kam der große Schock. Das macht doch alles keinen Sinn. Hunderte Seiten Kirchengeschichte, Buchhaltung, Register und vieles mehr. Fein säuberlich notiert, handschriftlich, leicht vergilbt und je nach Epoche in der gerade aktuellen Schriftart und Schreibweise. So kompliziert hatte ich mir das nicht vorgestellt. Das dauert ja Monate, bis ich das alles entziffert und das Brauchbare abgetippt habe. Klassischer Fall von Fehleinschätzung. Ich sah mich schon die nächsten Monate ununterbrochen PDF-Dateien und Unterlagen aus dem Kirchenarchiv abtippen. Aber kapitulieren kommt nicht in Frage, irgend eine Lösung muss her.

So klicke ich mich relativ planlos durchs Internet, weiß nicht mal genau, wonach ich eigentlich suche. Ich brauche irgend eine Möglichkeit, die vielen alten Schriften zu entziffern und das brauchbare Material aus dem Kirchenarchiv schnell in einer verwertbaren Form zu digitalisieren. Tipps finde ich wie Sand am Meer.

Alte Menschen fragen, ob sie die Seite vorlesen können –  Tolle Idee, bei Aufzeichnungen aus dem 18. Jahrhundert!

Einscannen  – Was für ein ist Mist. Dann habe ich hunderte Bilddateien, da kann ich ja nichts bearbeiten. Dann kann ich es ja gleich aus dem Buch abtippen. Oder die gefühlten Millionen an PDF-Dateien verwenden, die ich problemlos im Internet finden kann.

Und so steigert sich mein Frust von Seite zu Seite, bis ich an drei vielversprechenden Buchstaben hängen bleibe: OCR. Ich lese da:

„Wie zum Beispiel eine Notiz, die mit Füller gekritzelt ist oder einem altmodisch gedruckten Buch. Das ist, wo die optische Zeichenerkennung zu unserer Rettung kommt. Diese hilfreiche Technologie analysiert den gedruckten oder handschriftlichen Text und verwandelt es in eine Form, die der Computer versteht. „(https://pdf.wondershare.com/de/pdf-knowledge/what-is-ocr.html)

So etwas gibt es? Das wäre meine Rettung. Aber das ist bestimmt saumäßig kompliziert und unbezahlbar teuer. Egal, ich schau mir das trotzdem Mal an…

Texterkennung – so einfach kann es sein.

Schnell stelle ich fest, die Informationen sind übersichtlich und auch für mich als Laien gut verständlich. Ich habe wirklich keine Ahnung von Software, aber dass OCR für Optical Character Recognition steht und man mit dieser Software PDF-Dateien konvertieren und Daten von verschiedenen Arten von Papierdatensätzen digitalisieren kann, verstehe sogar ich problemlos. Mit Hilfe dieser Technik könnten alle meine gefundenen Dokumente digitalisiert und dann der Text bearbeitet, kopiert, elektronisch nach Schlagwörtern durchsucht, formatiert und kompakt abgespeichert werden. Dieses System würde alle meine Probleme lösen….

OCR - optische Texterkennung von PDFelement bei gescannten Dokumenten

Ein Beispiel, wie einfach OCR Texterkennung innerhalb von gescannten Dokumenten sein kann.

Also las ich eifrig weiter. Ganz so einfach war es dann doch nicht. Ich musste mich gründlich einlesen um unter all den vielfältigen Angeboten auch das Richtige zu wählen. Da aber die gesamte Homepage von wondershare klar strukturiert ist und technische Informationen verständlich beschrieben sind, wurde ich relativ schnell fündig. Und ich muss sagen, jede Minute der Vorarbeit und die Mühe des Einlesens lohnten sich. Am einfachsten, und vor allem in einer kostenlosen Testversion verfügbar, erschien mir PDFelement, quasi eine Basisversion, die es mir für den Anfang ohne großen Aufwand ermöglichte, die gefundenen brauchbaren PDF-Dateien aus dem Internet zu konvertieren und dann nach Bedarf zu bearbeiten. Nach Belieben konnte ich die erstellten Dokumente dann auch wieder ins pdf-Format zurück verwandeln. Es war wirklich einfach, so viel Kompetenz am PC hatte ich mir gar nicht zugetraut. Ich wurde mutiger und wagte den Umstieg von der Standardversion zur professionellen Version, da diese die Optische Texterkennung (OCR) beinhaltete und damit die Unterlagen aus dem Kirchenarchiv „lesen“ können würde. Es klappte. Einmal installiert funktionierte das System wie am Schnürchen. Seite um Seite übertrug ich per Scanner an meinen PC, der Dank OCR brauchbare, bearbeitbare und vor allem erst einmal lesbare Dokumente daraus zauberte. Die technischen Infos, wie genau das Programm arbeitet, erspare ich euch an dieser Stelle, wichtig ist, es arbeitet. Und zwar schnell, gut und zuverlässig. Wenn du es trotzdem genauer wissen und mit

50% Studentenrabatt (Rabattcode: SDEEDU50) testen möchtest, findest du die Infos unter:

Ich war über diesen Erfolg so glücklich, dass mich die bereits verloren gegangene Motivation wieder heimsuchte und so arbeitete ich konzentriert und effektiv Kapitel für Kapitel meiner Bachelorarbeit ab. Mit dem Ergebnis war letztendlich nicht nur ich, sondern auch mein Prof schwer zufrieden. Gott sei Dank.

 

Mehr zum Thema OCR Texterkennung

Wondershare PDFelement: die beste PDF-Bearbeitung

Über den Autor/die Autorin

Studiblog Staff

Einen Kommentar abgeben

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.