Werkzeuge zum Digitaliseren

Die verwendeten Software und die eingesetzten Techniken werden hier kurz beschrieben. Für weitere Fragen, falls sie ein ähnliches Projekt umsetzen möchten, stehe ich gerne zu Verfügung.

Scanner

Jeder Scanner kann verwendet werden. Ich empfehle, die Bilder mit 300 dpi zu scannen, damit die OCR-Software möglichst gute Ergebnisse liefert.

Bilder nachbearbeiten

Weil immer eine Doppelseite gescannt wurde, habe ich in der Nachbearbeitung die Seiten auf einzelne Bilder verteilt und nichtbedruckte Bereiche weggeschnitten, um auch ein wenig Speicherplatz zu sparen.

Texterkennung

Ursprünglich eine OCR-Software gekauft, war sie nicht in der Lage, Fraktur zu erkennen. Google bietet eine OCR-Software an, für die es, dank eines Plugin-Mechanismus auch Erweiterungen gibt, so auch für Fraktur – leider zu spät entdeckt.

Text- Roh-Format

Die Texte werden im rst-Format gespeichert, um sie mit dem Programm »Sphinx«, in ein HTML-Format transformieren zu können. Die Software erstellt eine für die Volltextsuche geeigneten Index.

Über das Einfügen von Index-Einträgen kann ein eigenes Stichwortverzeichnis aufgebaut werden. Ich mache es in dem Projekt an Hand von Substantiven (vom Zeileanfang werden auch einige Worte indiziert, die keine Substantive sind), die ich nach dem Korrekturlesen, mit einem Lisp-Makro im EMACS-Editor extrahiere und dann dem Text hinzufüge. Im Quelltext kann die endgültige Struktur betrachtet werden.

Website

Die fertige Seite liegt als statisches HTML vor und kann von jedem Webserver ausgeliefert werden.

Projektverwaltung

Weil die Sphinx-Software, wie auch die Hilfs-Skripte in Python geschrieben sind, wird das in der Python-Welt übliche Verfahren einer »Virtuellen Umgebung« verwendet.

Datensicherung

Die Organisation der Quelltexte erfolgt mit einer Versionsverwaltung. Ich verwende dafür das Programm »Mercurial«.

Weitere Optionen

Das rst-Format und die Software »Sphinx« erlauben auch die Transformation in ein eBook-Format oder den export in eine PDF-Datei.