Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines Scan Tailor-Tutorial für Windows

23. Januar 2014 @ 18:19

In immer mehr Bibliotheken stehen mittlerweile Buchscanner, vielerorts dürfte daher das Scannen von Texten oder ganzen Büchern das zwar ebenso zeitaufwendige, aber in der Regel kostenpflichtige Kopieren ersetzt haben. Steht kein Aufsichtsscanner zur Verfügung, etwa in kleineren Archiven, übernimmt oft eine handelsübliche Digitalkamera diese Funktion. Die Qualität solcher Scans oder Fotografien lässt oftmals aber sehr zu wünschen übrig, der eigentliche Text ist häufig schlecht zu erkennen. Insbesondere, wenn man seine mühsam in Archiv gesammelten Quellenschätze anderen zur Verfügung stellen möchte, sollte man daran noch etwas ändern.

Schon vor einiger Zeit habe ich das Programm Scan Tailor ScanTailor Advanced entdeckt, mit dem man die Bildqualität von solchem Material nachträglich deutlich verbessern kann. ScanTailor ist eine Software, die dazu verwendet wird, Bücher zu digitalisieren, es kann weitgehend automatisiert die Seiten aufteilen, den Text begradigten, schwarze Ränder entfernen und den Text gegenüber dem Hintergrund hervorheben. Scans, die mit Scan Tailor optimiert wurden, sind deutlich besser zu lesen und haben darüber hinaus den Vorteil, dass sie bei einer erneuten Überführung auf Totholz (aka „Drucken“) umweltfreundlicher sind, da Toner gespart wird. Außerdem lässt sich mit ScanTailor die Dateigröße eines PDFs oftmals deutlich reduzieren. Aber seht selbst.

Vorher

Nachher

Scan Tailor kann leider nur TIF-Dateien bearbeiten, daher müssen wir zunächst unser Ausgangsmaterial in dieses Bildformat umwandeln. Unter Windows gibt es leider nicht allzu viele gute und kostenlose Programme, die PDFs in TIF (und zurück) umwandeln können.1Profis sind vermutlich mit Ghostscript und GSview besser beraten. (File -> Convert…; tiff24nc, Variable Page Size, größte Auflösung Nach einiger Suche bin ich aber auf PDFill Tools gestoßen, was genau das kann. Wer bereits Bilder hat, kann diese natürlich z. B.  direkt mit IrfanView und Batchkonvertierung umwandeln. Bei PDFill Tools wählt ihr „10. Convert PDF to Images“. Im nächsten Fenster wählt ihr „TIF“ und „Single File with Multiple Pages“. Wichtig ist noch, dass ihr die Image-Resolution auf mindestens 300 DPI einstellt, ansonsten meckert Scan Tailor beim Öffnen der Bilder rum.

Nach der Umwandlung erstellt ihr einen Projektordner und kopiert die soeben erstellte .tif-Datei dort hinein. Anschließend öffnet ihr den Ordner mit Scan Tailor, das TIF sollte darin gefunden werden.

Auf der linken Seite habt ihr danach Schritt für Schritt die Möglichkeit, euren Scan zu optimieren. Klickt ihr auf den kleinen grauen Pfeil, werden alle folgenden Seiten nach den gewählten Einstellungen bearbeitet. Es empfiehlt sich, das Ergebnis kurz manuell zu prüfen, insbesondere „Inhalte auswählen“ funktioniert bei mir nicht immer ganz zuverlässig, oft werden etwa die Seitenzahlen nicht erfasst. Das ist aber dennoch schnell gemacht. Bis Schritt 5 (Stege) könnt ihr alle Schritte in einen Durchgang machen, Schritt 6, „Ausgabe“, erfordert aber, dass ihr zuvor Schritt 1 bis 5 mit allen Seiten durchführt. Hab ihr das gemacht, könnt ihr auf den kleinen grauen Pfeil bei Schritt 6 klicken, Scan Tailor wird dann alle Optimierungen durchführen und im „out“-Unterordner für jede Seite eine einzelne .tif Datei abspeichern.

Wer sich ausführlicher mit den Funktionen von Scan Tailor auseinandersetzen möchte, kann sich das Tutorial im GenWiki durchlesen oder 20 Minuten mit diesem Screencast verbringen.

Um aus diesen Dateien wieder ein PDF zu machen, benutze ich immer die kostenpflichtige Texterkennungssoftware Abbyy Finereader. Das hat den Vorteil, dass neben dem Bild des Textes noch eine durchsuchbare Textversion des Dokumentes im PDF vorhanden ist. Praktisch, falls man mal schnell ein bestimmtes Zitat aus dem Text sucht und in einen eigenen Text übernehmen möchte. Außerdem sind die von Finereader erstellten PDFs relativ klein.

Wenn ihr auf Texterkennung verzichten wollt, dann könnt ihr als kostenlose Alternative wieder PDFill Tools nehmen, allerdings waren die damit erstellten PDFs bei mir etwas größer als die von Findereader. Unter „09. Convert Images to PDF“ könnt ihr die TIF-Dateien auswählen (auf die richtige Reihenfolge der Seiten achten) und wieder zu einem PDF zusammenfügen.

Anschließend habt ihr ein wunderschönes PDF, mit dem ihr sicherlich viel besser weiterarbeiten könnt.

3 Kommentare auf „Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines Scan Tailor-Tutorial für Windows“

1 Trackback auf „Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines Scan Tailor-Tutorial für Windows“

  1. Trackback: Anonymous

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.