Schritt-für-Schritt-Anleitung zum automatisierten Duchsuchbarmachen (OCR) von PDF-Dateien mit Automatic PDF Processor für Windows
Ein neues Profil anlegen
Klicken Sie zum Anlegen ein neues Profils in der oberen Werkzeugleiste auf die Schaltfläche "Neues Profil...". Im
sich daraufhin öffnenden Konfigurationsfenster können Sie dem Profil einen aussagekräftigen Namen geben (beispielsweise:
Eingescannte Dateien durchsuchbar machen) und optional einen Kommentar hinzufügen, z. B. den Ursprungsordner. Um durchgeführte Aufgaben in
der Log-Liste besser voneinander unterscheiden zu können, lässt sich optional eine beliebige Kennzeichnungsfarbe einstellen.
Den zu überwachenden Ordner festlegen
Wählen Sie einen Ordner, der überwacht werden soll. Sobald in diesen Ordner neue PDF-Dateien eingehen, werden sie vom Programm
erkannt und bei Erfüllung der Filterkriterien automatisch verarbeitet, in diesem Fall per OCR durchsuchbar gemacht. Klicken Sie
auf die Schaltfläche "Hinzufügen..." und wählen Sie einen der dort aufgelisteten Ordner aus.
Einen oder mehrere Filter einrichten
Um nur bestimmte PDF-Dateien zu verarbeiten, lassen sich hier optional verschiedene Filterkriterien festlegen. Sie können
Dateieigenschaften wie einen Teil des Dateinamens verwenden oder Dokumenteigenschaften, wie Autor, Thema oder den Titel. Den
Text des Dokuments können Sie erst in einem neuen, auf die durchsuchbar gemachten Dateien aufbauenden Profil verwenden.
Filterbegriffe können mit logischen UND sowie ODER kombiniert werden. Falls Sie keinen Filterbegriff eingeben, werden sämtliche
in den überwachten Ordner eingehende PDF-Dateien automatisch durchsuchbar gemacht.
Aufgabe "Datei durchsuchbar machen" aktivieren und konfigurieren
Wählen Sie zunächst das Verzeichnis, in welches die durchsuchbar gemachten PDF-Datei abgelegt werden sollen. Das Eingabefeld
für den Dateinamen kann frei bleiben. In diesem Fall wird der Name der ursprünglichen Datei verwendet. Legen Sie nun die
erwartete Sprache des Dokumenteninhalts fest. Über die daneben liegende Schaltfläche lassen sich weitere Sprachen hinzufügen.
Mehr als 120 Sprachen stehen zur Auswahl.
Bei mehrsprachigen Dokumenten können Sie eine zusätzliche Sprache einstellen. Dies
liefert jedoch in vielen Fällen ein schlechteres OCR-Ergebnis und sollte daher nur mit Bedacht aktiviert werden.
Vor dem OCR-Vorgang werden die im PDF-Dokument enthaltenen Bilder anhand der aktivierten Optionen aufbereitet. Das Aktivieren der
Optionen für eine Bildaufbereitung erhöht in jedem Fall die Dateigröße wesentlich. Die Rotationskorrektur für schief eingescannte
Seiten und Entzerrung sollte aktiviert werden, wenn die Schieflage mehr als 5 Grad beträgt. Die Optionen "Nachschärfen" und "
Kontrast erhöhen" sind für ältere Dateien gedacht, die nur in einer geringen Auflösung vorliegen. In diesem Fall können
die beiden Optionen das OCR-Ergebnis deutlich verbessern. Im Allgemeinen sollte die Eingangsauflösung für den Scan-Vorgang
jedoch mindestens auf 225, besser auf 300 dpi eingestellt werden (eine höhere Auflösung verbessert die OCR-Erkennungsrate nicht mehr
wesentlich, sondern erhöht nur die Dateigröße).
Durchsuchbare PDF-Dateien sind oftmals deutlich größer als die ursprünglichen
Dateien. Falls der zur Verfügung stehende Speicherplatz sehr begrenzt ist, kann die DPI-Anzahl der Ausgabedatei verringert
werden. Neben dem benötigten Speicherplatz wird jedoch auch die OCR-Erkennungsrate reduziert.
Mit einem weiteren Profil können der Ablageordner überwacht werden und die jetzt durchsuchbaren PDF-Dateien beispielsweise anhand ihres
Inhalts in verschiedene Ordner verschoben und/oder umbenannt werden.
Benachrichtigungen
Abschließend lässt sich festgelegen, ob Statusmeldungen zur Verarbeitung der jeweiligen PDF-Datei an eine bestimmte E-Mail-
Adresse versandt werden soll. Für den Versand der Statusnachricht kann entweder das als Standard festgelegte Outlook-E-Mail-
Konto verwendet werden oder ein E-Mail-Konto mit benutzerdefinierten Eigenschaften. Die Konfiguration der Sendeeinstellungen
erfolgt in den Optionen.
Nachholen (ältere PDF-Dateien durchsuchbar machen)
Abschließend besteht noch die Option, das eingerichtete Profil auf alle PDF-Dateien eines bestimmten Zeitraums anzuwenden,
d.h. alle passenden PDF-Dateien durchsuchbar zu machen. Markieren Sie dazu das erstellte Profil in der Profilliste und klicken Sie auf "Nachholen".
Anderenfalls wird das Profil nur auf alle neu eingehenden PDF-Dateien der überwachten Ordner angewandt.