Werkzeuge zum Digitaliseren

Die verwendeten Software und die eingesetzten Techniken werden hier kurz beschrieben. Für weitere Fragen, falls sie ein ähnliches Projekt umsetzen möchten, stehe ich gerne zu Verfügung.

Scanner

Jeder Scanner kann verwendet werden. Ich empfehle, die Bilder mit 300 dpi zu scannen, damit die OCR-Software möglichst gute Ergebnisse liefert.

Bilder nachbearbeiten

Weil immer eine Doppelseite gescannt wurde, habe ich in der Nachbearbeitung die Seiten auf einzelne Bilder verteilt und nichtbedruckte Bereiche weggeschnitten, um auch ein wenig Speicherplatz zu sparen.

Texterkennung

Ursprünglich eine OCR-Software gekauft, war sie nicht in der Lage, Fraktur zu erkennen. Google bietet eine OCR-Software an, für die es, dank eines Plugin-Mechanismus auch Erweiterungen gibt, so auch für Fraktur – leider zu spät entdeckt.

Installaton und Nutzung

Die folgenden Schritte beziehen sich auf ein Debian-Linux-System.

Installation

apt-get install tesseract

Welche Sprachen werden unterstützt?

tessertact --list-langs

Fraktur ergänzen

Es gibt unterschiedliche Trainingssätze, mit dem folgenden Satz funktioniert die Texterkennung recht gut.

https://github.com/paalberti/tesseract-dan-fraktur

dort die Datei deu_frak.traindata herunterladen und in folgenden Ornder tessdata kopieren:

tree -L 2 /usr/share/tesseract-ocr/4.00/
└── tessdata
     ├── configs
     ├── deu_frak.traineddata
     ├── eng.traineddata
     ├── osd.traineddata
     ├── pdf.ttf
     └── tessconfigs

erster Aufruf

tesseract erntelied.jpg erntelied.txt -l deu_frak --dpi 300

Text- Roh-Format

Die Texte werden im rst-Format gespeichert, um sie mit dem Programm »Sphinx«, in ein HTML-Format transformieren zu können. Die Software erstellt eine für die Volltextsuche geeigneten Index.

Über das Einfügen von Index-Einträgen kann ein eigenes Stichwortverzeichnis aufgebaut werden. Ich mache es in dem Projekt an Hand von Substantiven (vom Zeileanfang werden auch einige Worte indiziert, die keine Substantive sind), die ich nach dem Korrekturlesen, mit einem Lisp-Makro im EMACS-Editor extrahiere und dann dem Text hinzufüge. Im Quelltext kann die endgültige Struktur betrachtet werden.

Website

Die fertige Seite liegt als statisches HTML vor und kann von jedem Webserver ausgeliefert werden.

Projektverwaltung

Weil die Sphinx-Software, wie auch die Hilfs-Skripte in Python geschrieben sind, wird das in der Python-Welt übliche Verfahren einer »Virtuellen Umgebung« verwendet.

Datensicherung

Die Organisation der Quelltexte erfolgt mit einer Versionsverwaltung. Ich verwende dafür das Programm »Git«.

Weitere Optionen

Das rst-Format und die Software »Sphinx« erlauben auch die Transformation in ein eBook-Format oder den export in eine PDF-Datei.