Werkzeuge zum Digitaliseren¶
Die verwendeten Software und die eingesetzten Techniken werden hier kurz beschrieben. Für weitere Fragen, falls sie ein ähnliches Projekt umsetzen möchten, stehe ich gerne zu Verfügung.
Scanner¶
Jeder Scanner kann verwendet werden. Ich empfehle, die Bilder mit 300 dpi zu scannen, damit die OCR-Software möglichst gute Ergebnisse liefert.
Bilder nachbearbeiten¶
Weil immer eine Doppelseite gescannt wurde, habe ich in der Nachbearbeitung die Seiten auf einzelne Bilder verteilt und nichtbedruckte Bereiche weggeschnitten, um auch ein wenig Speicherplatz zu sparen.
Texterkennung¶
Ursprünglich eine OCR-Software gekauft, war sie nicht in der Lage, Fraktur zu erkennen. Google bietet eine OCR-Software an, für die es, dank eines Plugin-Mechanismus auch Erweiterungen gibt, so auch für Fraktur – leider zu spät entdeckt.
Text- Roh-Format¶
Die Texte werden im rst-Format gespeichert, um sie mit dem Programm »Sphinx«, in ein HTML-Format transformieren zu können. Die Software erstellt eine für die Volltextsuche geeigneten Index.
Über das Einfügen von Index-Einträgen kann ein eigenes Stichwortverzeichnis aufgebaut werden. Ich mache es in dem Projekt an Hand von Substantiven (vom Zeileanfang werden auch einige Worte indiziert, die keine Substantive sind), die ich nach dem Korrekturlesen, mit einem Lisp-Makro im EMACS-Editor extrahiere und dann dem Text hinzufüge. Im Quelltext kann die endgültige Struktur betrachtet werden.
Website¶
Die fertige Seite liegt als statisches HTML vor und kann von jedem Webserver ausgeliefert werden.
Projektverwaltung¶
Weil die Sphinx-Software, wie auch die Hilfs-Skripte in Python geschrieben sind, wird das in der Python-Welt übliche Verfahren einer »Virtuellen Umgebung« verwendet.
Datensicherung¶
Die Organisation der Quelltexte erfolgt mit einer Versionsverwaltung. Ich verwende dafür das Programm »Mercurial«.
Weitere Optionen¶
Das rst-Format und die Software »Sphinx« erlauben auch die Transformation in ein eBook-Format oder den export in eine PDF-Datei.