Ordner überwachen - PDF-Dateien automatisch aufteilen
Schritt-für-Schritt-Anleitung zum automatisierten Trennen von PDF-Dateien mit Automatic PDF Processor für Windows
Ein neues Profil anlegen
Klicken Sie in der Werkzeugleiste auf die Schaltfläche "Neues Profil...", um ein neues Profil anzulegen. Tragen Sie im
Konfigurationsfenster einen aussagekräftigen Profilnamen ein - zum Beispiel "E-Akten trennen" oder "Protokolle
aufteilen". Fügen Sie optional noch einen Kommentar hinzu, z. B. den Zielordner. Sie können das Profil farblich kennzeichnen
lassen, um durchgeführte Aufgaben in der Log-Liste schnell voneinander unterscheiden zu können.
Festlegen des zu überwachenden Ordners
Bestimmen Sie als nächstes einen (optional auch mehrere Ordner), der überwacht werden soll. Sobald in den Ordner neue PDF-Dateien eingehen,
werden diese vom Programm erkannt und automatisch verarbeitet, in diesem Fall also aufgeteilt. Klicken Sie auf die Schaltfläche
"Hinzufügen..." und wählen Sie einen der dort aufgelisteten Ordner aus.
Einen oder mehrere Filter einrichten
Legen Sie hier optional verschiedene Filterkriterien fest, um nur bestimmte PDF-Dateien zu trennen. Sie können Dateieigenschaften wie einen
Teil des Dateinamens verwenden oder Dokumenteigenschaften, wie Autor, Thema oder auch den Text. Filterbegriffe können mit logischen UND sowie
ODER kombiniert werden. Falls Sie keinen Filterbegriff eingeben, werden sämtliche in den überwachten Ordner eingehende PDF-Dateien automatisch
getrennt.
Aufgabe "Datei aufteilen" aktivieren und konfigurieren
In dieser Kategorie legen Sie das Verzeichnis fest, in welches die getrennten Einzeldokumente gespeichert werden sollen. Optional können Sie dabei
dynamische Inhalte für die Ordnerstruktur und/oder den Dateinamen verwenden. Bestimmen Sie zunächst das Basisverzeichnis,
z. B. "D:\Getrennte E-Akten". Im Feld "Unterordner" können Sie dynamische Eigenschaften
(z. B. einen Teil des Dateinamens) der ursprünglichen PDF-Datei verwenden. Klicken Sie auf "Platzhalter" und wählen Sie den passenden Eintrag aus.
Auch in den Dateinamen der Einzeldokumente können verschiedene Eigenschaften des ursprünglichen Dokuments integriert werden.
Die Vorschau wird anhand der zuvor hinzugefügten Beispieldateien berechnet.
Hinweis: Die Platzhalter beziehen sich hier auf die ursprüngliche Datei. Um die getrennten Einzeldokumente dynamisch zu benennen (beispielsweise mit
extrahiertem Textbestandteil, wie einer Akten- oder Protokollnummer), müssen die getrennten Dateien zunächst in ein Zwischenverzeichnis gespeichert werden.
Dieses Zwischenverzeichnis muss dann von einem weiteren Profil überwacht werden, in welchem eine automatische Umbenennung oder das automatische Verschieben
in das Zielverzeichnis konfiguriert wird (siehe Anleitung:
PDF-Dateien automatisch umbenennen
).
Weiterhin können Sie hier vorgeben, wie sich das Programm verhalten soll, wenn bereits eine Datei mit dem gleichen Namen existiert.
Art der Aufteilung festlegen
Bestimmen Sie hier, wie PDF-Dateien getrennt werden. Folgende Optionen stehen zur Verfügung:
- Seitenanzahl
- Dateigröße
- Lesezeichen (oberste Ebene)
- Schlüsselwörter
- Barcode bzw. QR-Code
- Platzhalter (bei sich ändernden Werten extrahierter Daten)
- Leerseiten
Um jede einzelne Seite eines Dokuments als individuelle Datei zu speichern, wählen Sie "Seitenanzahl" und stellen Sie
"max. 1 Seite" ein. Eine weitere, häufig verwendete Aufteilungsart ist die Verwendung von Schlüsselwörtern. Dabei können
auch unerwünschte Seiten ausgeschlossen werden. Tragen Sie bei "von -> Seite enthält:" einen Begriff ein, der auf der
ersten Seite jedes individuellen Dokuments vorkommt, zum Beispiel "Protokollnummer:". Tragen Sie optional bei "bis ->
Seite enthält:" einen Begriff ein, der auf der letzten Seite jedes individuellen Dokuments vorkommt, zum Beispiel "Summe:".
Wenn einseitige Dokumente erwartet werden, kann auch wieder der gleiche Begriff verwendet werden, hier also "Protokollnummer:".
Zwischenseiten ohne Text oder den Suchbegriff werden bei dieser Aufteilungsart übersprungen, also nicht extrahiert.
Beim Trennen von Dokumenten nach fester Seitenanzahl kann auch wieder ein Zwischenverzeichnis verwendet werden und ein zweites Profil
verschiebt dann ausschließlich diejenigen Dokumente, welche bestimmte Filterkriterien erfüllen, in das tatsächliche Zielverzeichnis.
Die Software bietet zusätzliche Filterfunktionen, mit denen Sie Seiten vom Aufteilungsprozess ausschließen können. Zum Beispiel ist es
möglich, Seiten ohne Text oder Seiten mit oder ohne bestimmten Schlüsselwörtern auszuschließen.
Benachrichtigungen
Abschließend lässt sich festgelegen, ob Statusmeldungen zur Verarbeitung der jeweiligen PDF-Datei (Erfolg, Fehler, Kein Treffer, Kein Text, ...)
an eine bestimmte
E-Mail-Adresse versandt werden soll. Für den Versand der Statusnachricht kann entweder das als Standard festgelegte Outlook-E-Mail-Konto
verwendet werden oder ein E-Mail-Konto mit benutzerdefinierten Eigenschaften. Nach erfolgreichem Trennen eines PDF-Dokuments kann zudem
eine beliebige Wave-Datei abgespielt werden.
Praxisbeispiel: Sammelrechnungen nach Rechnungsnummer trennen und benennen
Auf einen Blick
- Schwierigkeitsgrad: Fortgeschritten
- Voraussetzungen: Datenextraktion verstehen
- Verwendete Aufgaben: PDFs aufteilen, Datei umbenennen
- Ergebnis: Sammel-PDF wird in einzelne Rechnungen getrennt, jede benannt mit ihrer Rechnungsnummer
Ausgangssituation
Sie erhalten monatlich ein Sammel-PDF mit ca. 400 Seiten, das rund 250 Rechnungen enthält. Jede Rechnung umfasst
ein, zwei oder drei Seiten. Auf jeder Seite steht die Rechnungsnummer (z. B. "Rg.Nr. PH0012345"), allerdings
an unterschiedlichen Positionen. Am Ende sollen 250 einzelne PDF-Dateien vorliegen, jeweils benannt mit der Rechnungsnummer.
Warum werden zwei Profile benötigt? Beim Aufteilen stehen als Dateinamen-Platzhalter nur
<SplittingNumber> und <SplittingNumberWithLeadingZeros{N}> zur Verfügung –
nicht jedoch der extrahierte Wert selbst (z. B. die Rechnungsnummer). Um die Teildokumente mit der Rechnungsnummer zu benennen,
wird daher ein zweites Profil benötigt, das die Dateien anschließend umbenennt.
Übersicht des Workflows
Sammel-PDF (400 Seiten, 250 Rechnungen)
|
v
Profil 1: Aufteilen nach Platzhalter (Wertänderung der Rechnungsnummer)
|
v
Zwischenordner: Sammelrechnung_001.pdf, Sammelrechnung_002.pdf, ... (250 Dateien)
|
v
Profil 2: Umbenennen nach extrahierter Rechnungsnummer
|
v
Zielordner: PH0012345.pdf, PH0012346.pdf, ... (250 Dateien)
Profil 1: Extrahierungsregel erstellen und Aufteilung konfigurieren
Erstellen Sie ein neues Profil, z. B. mit dem Namen "Sammelrechnungen aufteilen", und legen Sie den
überwachten Ordner fest, in den Ihre Sammel-PDFs eingehen.
Schritt A: Extrahierungsregel für die Rechnungsnummer erstellen
Wechseln Sie in den Profileinstellungen zur Kategorie "Datenextraktion" und erstellen Sie eine
neue Regel:
- Regelname:
Rechnungsnummer
- Bestimmung: Schlüsselwort
- Schlüsselwort:
Rg.Nr.
- Datenposition: Rechts
- Datentyp: Text
Das Schlüsselwort "Rg.Nr." dient als Ankerpunkt. Das Programm sucht diesen Text auf jeder Seite
und liest den Datenbereich rechts davon aus – also die eigentliche Rechnungsnummer (z. B. "PH0012345").
Prüfen Sie mit mehreren Beispieldateien, ob die Extraktion korrekt funktioniert.
Eine ausführliche Anleitung zur Datenextraktion finden Sie unter:
Datenextraktion verstehen
Schritt B: Aufgabe "Datei aufteilen" konfigurieren
Aktivieren Sie die Aufgabe "Datei aufteilen" und nehmen Sie folgende Einstellungen vor:
- Aufteilungsmethode: Platzhalter (Änderung des Wertes)
- Extrahierungsregel:
Rechnungsnummer (die soeben erstellte Regel)
- Seiten ohne gültige Extraktion überspringen: Aktivieren, falls das Sammel-PDF ein Deckblatt enthält
Diese Aufteilungsmethode prüft auf jeder Seite den extrahierten Wert der Rechnungsnummer. Sobald sich
der Wert ändert (z. B. von "PH0012345" auf "PH0012346"), beginnt ein neues Teildokument.
Seiten mit derselben Rechnungsnummer werden automatisch zu einem Dokument zusammengefasst – unabhängig davon,
ob eine Rechnung ein, zwei oder drei Seiten umfasst.
Konfigurieren Sie außerdem den Speicherort für die Teildokumente:
- Verzeichnis:
D:\Rechnungen\Zwischenordner (ein temporäres Verzeichnis)
- Dateiname:
<FileName>_<SplittingNumberWithLeadingZeros{3}>
- Bei vorhandener Datei gleichen Namens: Nummerierung anfügen
Profil 2: Einzelrechnungen nach Rechnungsnummer umbenennen
Erstellen Sie ein zweites Profil, z. B. "Rechnungen umbenennen", das den Zwischenordner
(D:\Rechnungen\Zwischenordner) überwacht.
Schritt A: Gleiche Extrahierungsregel erstellen
Erstellen Sie in diesem Profil dieselbe Extrahierungsregel wie in Profil 1:
- Regelname:
Rechnungsnummer
- Schlüsselwort:
Rg.Nr.
- Datenposition: Rechts
- Datentyp: Text
Da jede Datei im Zwischenordner nun nur noch eine einzelne Rechnung enthält, liefert die Extraktion
genau eine Rechnungsnummer.
Schritt B: Aufgabe "Datei umbenennen" konfigurieren
Aktivieren Sie die Aufgabe "Datei umbenennen" und konfigurieren Sie den Dateinamen mit dem Platzhalter
der Extrahierungsregel:
Beispiel-Konfiguration
Dateiname: <RuleId:1(Rechnungsnummer)>
Ergebnis: PH0012345.pdf
- Bei vorhandener Datei gleichen Namens: Nummerierung anfügen
Optional können Sie zusätzlich die Aufgabe "Datei verschieben" aktivieren, um die umbenannten
Dateien in ein endgültiges Zielverzeichnis zu verschieben.
Eine ausführliche Anleitung zur Umbenennung finden Sie unter:
PDF-Dateien automatisch umbenennen
Ergebnis
Eingabe: Sammelrechnung_2024-12.pdf (400 Seiten, 250 Rechnungen)
Zwischenordner: Sammelrechnung_2024-12_001.pdf ... _250.pdf
Endergebnis: PH0012345.pdf, PH0012346.pdf, ... (250 Dateien)
Tipps:
- Bereits vorhandene Dateien verarbeiten: Verwenden Sie die "Nachholverarbeitung"
in der oberen Werkzeugleiste, um bereits im Ordner liegende Sammel-PDFs aufzuteilen.
- Zuerst testen: Testen Sie die Konfiguration mit einem kleinen Sammel-PDF
(5–10 Rechnungen), bevor Sie das vollständige Dokument verarbeiten.
- Extraktion prüfen: Fügen Sie mehrere Beispieldateien hinzu und prüfen Sie
die Extraktionsergebnisse in der Vorschau.
- Gescannte PDFs: Falls Ihre Sammel-PDFs gescannt (als Bild) vorliegen, aktivieren Sie
zuerst die Aufgabe "OCR-Texterkennung", um den Text durchsuchbar zu machen.
Weitere Schritt-für-Schritt-Anleitungen
Erste Schritte
Grundlegende Aufgaben
PDF-Bearbeitung
E-Rechnung & Archivierung
Praxisbeispiele
Zur Automatic PDF Processor-Übersichtsseite
Automatic PDF Processor jetzt unverbindlich 30 Tage testen ...
Zum Download