Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines Scan Tailor-Tutorial für Windows

In immer mehr Bibliotheken stehen mittlerweile Buchscanner, vielerorts dürfte daher das Scannen von Texten oder ganzen Büchern das zwar ebenso zeitaufwendige, aber in der Regel kostenpflichtige Kopieren ersetzt haben. Steht kein Aufsichtsscanner zur Verfügung, etwa in kleineren Archiven, übernimmt oft eine handelsübliche Digitalkamera diese Funktion. Die Qualität solcher Scans oder Fotografien lässt oftmals aber sehr zu wünschen übrig, der eigentliche Text ist häufig schlecht zu erkennen. Insbesondere, wenn man seine mühsam in Archiv gesammelten Quellenschätze anderen zur Verfügung stellen möchte, sollte man daran noch etwas ändern.

Schon vor einiger Zeit habe ich das Programm Scan Tailor entdeckt, mit dem man die Bildqualität von solchen Material nachträglich deutlich verbessern kann. ScanTailor ist eine Software, die dazu verwendet wird, Bücher zu digitalisieren, es kann weitgehend automatisiert die Seiten aufteilen, den Text begradigten, schwarze Ränder entfernen und den Text gegenüber dem Hintergrund hervorheben. Scans, die mit Scan Tailor optimiert wurden, sind deutlich besser zu lesen und haben darüber hinaus den Vorteil, dass sie bei einer erneuten Überführung auf Totholz (aka „Drucken“) umweltfreundlicher sind, da Toner gespart wird. Außerdem lässt sich mit ScanTailor die Dateigröße eines PDF oftmals deutlich reduzieren. Aber seht selbst.

Scan Tailor vorher – nachher

ScanTailorBsp02

ScanTailorBsp00 ScanTailorBsp01

Scan Tailor kann leider nur TIF-Dateien bearbeiten, daher müssen wir zunächst unser Ausgangsmaterial in dieses Bildformat umwandeln. Unter Windows gibt es leider nicht allzu viele gute und kostenlose Programme, die PDFs in TIF (und zurück) umwandeln können.1 Nach einiger Suche bin ich aber auf PDFill Tools gestoßen, was genau das kann. Wer bereits Bilder hat, kann diese natürlich z. B.  direkt mit IrfanView und Batchkonvertierung umwandeln. Bei PDFill Tools wählt ihr „10. Convert PDF to Images“. Im nächsten Fenster wählt ihr „TIF“ und „Single File with Multiple Pages“. Wichtig ist noch, dass ihr die Image-Resolution auf mindestens 300 DPI einstellt, ansonsten meckert Scan Tailor beim Öffnen der Bilder rum.

PDFillTool02 PDFillTool03Nach der Umwandlung erstellt ihr einen Projektordner und kopiert die soeben erstellte .tif-Datei dort hinein. Anschließend öffnet ihr den Ordner mit Scan Tailor, das TIF sollte darin gefunden werden.

ScanTailor01Auf der linken Seite habt ihr danach Schritt für Schritt die Möglichkeit, euren Scan zu optimieren. Klickt ihr auf den kleinen grauen Pfeil, werden alle folgenden Seiten nach den gewählten Einstellungen bearbeitet. Es empfiehlt sich, das Ergebnis kurz manuell zu prüfen, insbesondere „Inhalte auswählen“ funktioniert bei mir nicht immer ganz zuverlässig, oft werden etwa die Seitenzahlen nicht erfasst. Das ist aber dennoch schnell gemacht. Bis Schritt 5 (Stege) könnt ihr alle Schritte in einen Durchgang machen, Schritt 6, „Ausgabe“, erfordert aber, dass ihr zuvor Schritt 1 bis 5 mit allen Seiten durchführt. Hab ihr das gemacht, könnt ihr auf den kleinen grauen Pfeil bei Schritt 6 klicken, Scan Tailor wird dann alle Optimierungen durchführen und im „out“-Unterordner für jede Seite eine einzelne .tif Datei abspeichern.

ScanTailor03aWer sich ausführlicher mit den Funktionen von Scan Tailor auseinandersetzen möchte, kann sich das Tutorial im GenWiki durchlesen oder 20 Minuten mit diesem Screencast verbringen.

Um aus diesen Dateien wieder ein PDF zu machen, benutze ich immer die kostenpflichtige Texterkennungssoftware Abbyy Finereader. Das hat den Vorteil, dass neben dem Bild des Textes noch eine durchsuchbare Textversion des Dokumentes im PDF vorhanden ist. Praktisch, falls man mal schnell ein bestimmtes Zitat aus dem Text sucht und in einen eigenen Text übernehmen möchte. Außerdem sind die von Finereader erstellten PDFs relativ klein.

Wenn ihr auf Texterkennung verzichten wollt, dann könnt ihr als kostenlose Alternative wieder PDFill Tools nehmen, allerdings waren die damit erstellten PDFs bei mir etwas größer als die von Findereader. Unter „09. Convert Images to PDF“ könnt ihr die TIF-Dateien auswählen (auf die richtige Reihenfolge der Seiten achten) und wieder zu einem PDF zusammenfügen.

Anschließend habt ihr ein wunderschönes PDF, mit dem ihr sicherlich viel besser weiterarbeiten könnt.

  1. Profis sind vermutlich mit Ghostscript und GSview besser beraten. (File -> Convert…; tiff24nc, Variable Page Size, größte Auflösung []

Kommentar schreiben

4 Kommentare.

  1. [Gebloggt] Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines #ScanTailor Tutorial für Windows http://t.co/DWHAPJWNxn

  2. [http://t.co/X6BCZbQ1RG] Gescannte oder fotografierte Texte und PDFs optimieren – Ein kleines Scan… http://t.co/aBRSsuy2ne

  3. Danke für den Hinweis auf ScanTailor, @mroehr ! http://t.co/aowwZBHSX7

  4. Anonymous - pingback on 17. Januar 2015 um 10:44

Kommentar schreiben


Hinweis - Du kannst dies benutzenHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Trackbacks und Pingbacks: