Anleitung für das Extrahieren von PDF-Daten mit Automatic PDF Processor
Vorherige Schritte:
Diese Anleitung sollte als Teil der unten aufgeführten Schritt-für-Schritt-Anleitungen gelesen werden.
Vor dem Extrahieren der Daten sollten folgende Schritte also bereits vorgenommen worden sein:
- Das Profil wurde benannt
- Der zu überwachende Ordner wurde bestimmt
- Eventuell notwendige Filter wurden gesetzt
- Beispieldateien wurden hinzugefügt
Daten extrahieren
Wechseln Sie in den Profileinstellungen zur Kategorie "Datenextrahierung" und klicken Sie auf "Regeln anlegen/bearbeiten...",
um den Regel-Editor zu öffnen. Sobald bereits einige Regeln angelegt sind, können Sie auch doppelt auf den Namen einer Regel klicken, um direkt
zu dieser Regel zu navigieren.
In der Regelverwaltung können Sie anhand der zuvor festgelegten Beispieldateien Werte aus dem Text der jeweiligen PDF-Datei extrahieren. Für die meisten
Fälle ist der Datentyp "Text" die richtige Wahl. Beim Extrahieren eines Datums sollte auch der gleichnamige Datentyp gewählt werden. Dadurch
haben Sie bei Verwendung des extrahierten Wertes die einzelnen Datumsbestandteile zur Verfügung und können diese beliebig kombinieren.
Mit dem Datentyp "Abfrage" oder "Abfrage (mit Liste)" können Sie einen Wert in Abhängigkeit vom Vorkommen bestimmter Schlüsselwörter in
einem Platzhalter speichern. Mit einer "Abfrage (mit Liste)" können unter anderem kategorische Werte ermittelt werden. Zum Beispiel kann bei drei
verschiedenen Berichtstypen (Tagesbericht, Wochenbericht, Monatsbericht) der im jeweiligen Dokument vorkommende Typ in einem Platzhalter "Berichtstyp"
gespeichert und für den Namen etc. verwendet werden.
Bei der Angabe des Datenbereichs besteht die Wahl zwischen "Textblock" und "Erstes Zeichen". Die Standardeinstellung "Textblock" erfasst alle
nachfolgenden Zeichen des am Suchwort angrenzenden Textblocks und ist in den meisten Fällen ausreichend. Falls der Textblock jedoch in einen angrenzenden
Datenbereich überlappt, muss auf die Einstellung "Erstes Zeichen" gewechselt werden. Bei dieser Einstellung wird nur das erste sichtbare Zeichen
des Textblocks als Extrahierungsergebnis verwendet – der Datenbereich muss hier also mittels der daneben liegenden Registerkarte
"Datenbereich erweitern" erweitert werden.
Die sich unterhalb des Konfigurationsbereichs befindende Vorschau zeigt den aktuell extrahierten Wert an.
Nachfolgende Schritte:
Die extrahierten PDF-Daten können für Namen oder Pfad des jeweiligen PDF-Dokuments verwendet werden, um eine strukturierte Ablage zu
erreichen. Für andere Anwendungsfälle lassen sich die Daten in einer separaten CSV-Datei oder einer Sammel-CSV-Datei speichern.