Ordner überwachen - PDF-Dateien automatisch aufteilen

Schritt-für-Schritt-Anleitung zum automatisierten Trennen von PDF-Dateien mit Automatic PDF Processor für Windows

Ein neues Profil anlegen

Klicken Sie in der Werkzeugleiste auf die Schaltfläche "Neues Profil...", um ein neues Profil anzulegen. Tragen Sie im Konfigurationsfenster einen aussagekräftigen Profilnamen ein - zum Beispiel "E-Akten trennen" oder "Protokolle aufteilen". Fügen Sie optional noch einen Kommentar hinzu, z. B. den Zielordner. Sie können das Profil farblich kennzeichnen lassen, um durchgeführte Aufgaben in der Log-Liste schnell voneinander unterscheiden zu können.

Profilerstellung - E-Akte trennen

Festlegen des zu überwachenden Ordners

Bestimmen Sie als nächstes einen (optional auch mehrere Ordner), der überwacht werden soll. Sobald in den Ordner neue PDF-Dateien eingehen, werden diese vom Programm erkannt und automatisch verarbeitet, in diesem Fall also aufgeteilt. Klicken Sie auf die Schaltfläche "Hinzufügen..." und wählen Sie einen der dort aufgelisteten Ordner aus.

Ordner selektieren

Einen oder mehrere Filter einrichten

Legen Sie hier optional verschiedene Filterkriterien fest, um nur bestimmte PDF-Dateien zu trennen. Sie können Dateieigenschaften wie einen Teil des Dateinamens verwenden oder Dokumenteigenschaften, wie Autor, Thema oder auch den Text. Filterbegriffe können mit logischen UND sowie ODER kombiniert werden. Falls Sie keinen Filterbegriff eingeben, werden sämtliche in den überwachten Ordner eingehende PDF-Dateien automatisch getrennt.

PDF-Dokument - Filter setzen

Aufgabe "Datei aufteilen" aktivieren und konfigurieren

In dieser Kategorie legen Sie das Verzeichnis fest, in welches die getrennten Einzeldokumente gespeichert werden sollen. Optional können Sie dabei dynamische Inhalte für die Ordnerstruktur und/oder den Dateinamen verwenden. Bestimmen Sie zunächst das Basisverzeichnis, z. B. "D:\Getrennte E-Akten". Im Feld "Unterordner" können Sie dynamische Eigenschaften (z. B. einen Teil des Dateinamens) der ursprünglichen PDF-Datei verwenden. Klicken Sie auf "Platzhalter" und wählen Sie den passenden Eintrag aus. Auch in den Dateinamen der Einzeldokumente können verschiedene Eigenschaften des ursprünglichen Dokuments integriert werden. Die Vorschau wird anhand der zuvor hinzugefügten Beispieldateien berechnet. Hinweis: Die Platzhalter beziehen sich hier auf die ursprüngliche Datei. Um die getrennten Einzeldokumente dynamisch zu benennen (beispielsweise mit extrahiertem Textbestandteil, wie einer Akten- oder Protokollnummer), müssen die getrennten Dateien zunächst in ein Zwischenverzeichnis gespeichert werden. Dieses Zwischenverzeichnis muss dann von einem weiteren Profil überwacht werden, in welchem eine automatische Umbenennung oder das automatische Verschieben in das Zielverzeichnis konfiguriert wird (siehe Anleitung: PDF-Dateien automatisch umbenennen
).

Weiterhin können Sie hier vorgeben, wie sich das Programm verhalten soll, wenn bereits eine Datei mit dem gleichen Namen existiert.

Speicherort für Einzeldokumente

Art der Aufteilung festlegen

Bestimmen Sie hier, wie PDF-Dateien getrennt werden. Folgende Optionen stehen zur Verfügung:

  • Seitenanzahl
  • Dateigröße
  • Lesezeichen (oberste Ebene)
  • Schlüsselwörter
  • Barcode bzw. QR-Code
  • Platzhalter (bei sich ändernden Werten extrahierter Daten)
  • Leerseiten

Um jede einzelne Seite eines Dokuments als individuelle Datei zu speichern, wählen Sie "Seitenanzahl" und stellen Sie "max. 1 Seite" ein. Eine weitere, häufig verwendete Aufteilungsart ist die Verwendung von Schlüsselwörtern. Dabei können auch unerwünschte Seiten ausgeschlossen werden. Tragen Sie bei "von -> Seite enthält:" einen Begriff ein, der auf der ersten Seite jedes individuellen Dokuments vorkommt, zum Beispiel "Protokollnummer:". Tragen Sie optional bei "bis -> Seite enthält:" einen Begriff ein, der auf der letzten Seite jedes individuellen Dokuments vorkommt, zum Beispiel "Summe:". Wenn einseitige Dokumente erwartet werden, kann auch wieder der gleiche Begriff verwendet werden, hier also "Protokollnummer:". Zwischenseiten ohne Text oder den Suchbegriff werden bei dieser Aufteilungsart übersprungen, also nicht extrahiert.

Beim Trennen von Dokumenten nach fester Seitenanzahl kann auch wieder ein Zwischenverzeichnis verwendet werden und ein zweites Profil verschiebt dann ausschließlich diejenigen Dokumente, welche bestimmte Filterkriterien erfüllen, in das tatsächliche Zielverzeichnis.

Die Software bietet zusätzliche Filterfunktionen, mit denen Sie Seiten vom Aufteilungsprozess ausschließen können. Zum Beispiel ist es möglich, Seiten ohne Text oder Seiten mit oder ohne bestimmten Schlüsselwörtern auszuschließen.

Art der Aufteilung

Benachrichtigungen

Abschließend lässt sich festgelegen, ob Statusmeldungen zur Verarbeitung der jeweiligen PDF-Datei (Erfolg, Fehler, Kein Treffer, Kein Text, ...) an eine bestimmte E-Mail-Adresse versandt werden soll. Für den Versand der Statusnachricht kann entweder das als Standard festgelegte Outlook-E-Mail-Konto verwendet werden oder ein E-Mail-Konto mit benutzerdefinierten Eigenschaften. Nach erfolgreichem Trennen eines PDF-Dokuments kann zudem eine beliebige Wave-Datei abgespielt werden.

Statusbericht per E-Mail

Praxisbeispiel: Sammelrechnungen nach Rechnungsnummer trennen und benennen

Auf einen Blick

  • Schwierigkeitsgrad: Fortgeschritten
  • Voraussetzungen: Datenextraktion verstehen
  • Verwendete Aufgaben: PDFs aufteilen, Datei umbenennen
  • Ergebnis: Sammel-PDF wird in einzelne Rechnungen getrennt, jede benannt mit ihrer Rechnungsnummer

Ausgangssituation

Sie erhalten monatlich ein Sammel-PDF mit ca. 400 Seiten, das rund 250 Rechnungen enthält. Jede Rechnung umfasst ein, zwei oder drei Seiten. Auf jeder Seite steht die Rechnungsnummer (z. B. "Rg.Nr. PH0012345"), allerdings an unterschiedlichen Positionen. Am Ende sollen 250 einzelne PDF-Dateien vorliegen, jeweils benannt mit der Rechnungsnummer.

Warum werden zwei Profile benötigt? Beim Aufteilen stehen als Dateinamen-Platzhalter nur <SplittingNumber> und <SplittingNumberWithLeadingZeros{N}> zur Verfügung – nicht jedoch der extrahierte Wert selbst (z. B. die Rechnungsnummer). Um die Teildokumente mit der Rechnungsnummer zu benennen, wird daher ein zweites Profil benötigt, das die Dateien anschließend umbenennt.

Übersicht des Workflows

Sammel-PDF (400 Seiten, 250 Rechnungen)
    |
    v
Profil 1: Aufteilen nach Platzhalter (Wertänderung der Rechnungsnummer)
    |
    v
Zwischenordner: Sammelrechnung_001.pdf, Sammelrechnung_002.pdf, ... (250 Dateien)
    |
    v
Profil 2: Umbenennen nach extrahierter Rechnungsnummer
    |
    v
Zielordner: PH0012345.pdf, PH0012346.pdf, ... (250 Dateien)

Profil 1: Extrahierungsregel erstellen und Aufteilung konfigurieren

Erstellen Sie ein neues Profil, z. B. mit dem Namen "Sammelrechnungen aufteilen", und legen Sie den überwachten Ordner fest, in den Ihre Sammel-PDFs eingehen.

Schritt A: Extrahierungsregel für die Rechnungsnummer erstellen

Wechseln Sie in den Profileinstellungen zur Kategorie "Datenextraktion" und erstellen Sie eine neue Regel:

  • Regelname: Rechnungsnummer
  • Bestimmung: Schlüsselwort
  • Schlüsselwort: Rg.Nr.
  • Datenposition: Rechts
  • Datentyp: Text

Das Schlüsselwort "Rg.Nr." dient als Ankerpunkt. Das Programm sucht diesen Text auf jeder Seite und liest den Datenbereich rechts davon aus – also die eigentliche Rechnungsnummer (z. B. "PH0012345"). Prüfen Sie mit mehreren Beispieldateien, ob die Extraktion korrekt funktioniert.

Eine ausführliche Anleitung zur Datenextraktion finden Sie unter: Datenextraktion verstehen

Extrahierungsregel für Rechnungsnummer

Schritt B: Aufgabe "Datei aufteilen" konfigurieren

Aktivieren Sie die Aufgabe "Datei aufteilen" und nehmen Sie folgende Einstellungen vor:

  • Aufteilungsmethode: Platzhalter (Änderung des Wertes)
  • Extrahierungsregel: Rechnungsnummer (die soeben erstellte Regel)
  • Seiten ohne gültige Extraktion überspringen: Aktivieren, falls das Sammel-PDF ein Deckblatt enthält

Diese Aufteilungsmethode prüft auf jeder Seite den extrahierten Wert der Rechnungsnummer. Sobald sich der Wert ändert (z. B. von "PH0012345" auf "PH0012346"), beginnt ein neues Teildokument. Seiten mit derselben Rechnungsnummer werden automatisch zu einem Dokument zusammengefasst – unabhängig davon, ob eine Rechnung ein, zwei oder drei Seiten umfasst.

Konfigurieren Sie außerdem den Speicherort für die Teildokumente:

  • Verzeichnis: D:\Rechnungen\Zwischenordner (ein temporäres Verzeichnis)
  • Dateiname: <FileName>_<SplittingNumberWithLeadingZeros{3}>
  • Bei vorhandener Datei gleichen Namens: Nummerierung anfügen
Aufteilung nach Platzhalter (Wertänderung)

Profil 2: Einzelrechnungen nach Rechnungsnummer umbenennen

Erstellen Sie ein zweites Profil, z. B. "Rechnungen umbenennen", das den Zwischenordner (D:\Rechnungen\Zwischenordner) überwacht.

Schritt A: Gleiche Extrahierungsregel erstellen

Erstellen Sie in diesem Profil dieselbe Extrahierungsregel wie in Profil 1:

  • Regelname: Rechnungsnummer
  • Schlüsselwort: Rg.Nr.
  • Datenposition: Rechts
  • Datentyp: Text

Da jede Datei im Zwischenordner nun nur noch eine einzelne Rechnung enthält, liefert die Extraktion genau eine Rechnungsnummer.

Schritt B: Aufgabe "Datei umbenennen" konfigurieren

Aktivieren Sie die Aufgabe "Datei umbenennen" und konfigurieren Sie den Dateinamen mit dem Platzhalter der Extrahierungsregel:

Beispiel-Konfiguration

Dateiname: <RuleId:1(Rechnungsnummer)>

Ergebnis: PH0012345.pdf

  • Bei vorhandener Datei gleichen Namens: Nummerierung anfügen

Optional können Sie zusätzlich die Aufgabe "Datei verschieben" aktivieren, um die umbenannten Dateien in ein endgültiges Zielverzeichnis zu verschieben.

Eine ausführliche Anleitung zur Umbenennung finden Sie unter: PDF-Dateien automatisch umbenennen

Profil 2: Umbenennung nach Rechnungsnummer

Ergebnis

Eingabe:         Sammelrechnung_2024-12.pdf (400 Seiten, 250 Rechnungen)
Zwischenordner:  Sammelrechnung_2024-12_001.pdf ... _250.pdf
Endergebnis:     PH0012345.pdf, PH0012346.pdf, ... (250 Dateien)

Tipps:

  • Bereits vorhandene Dateien verarbeiten: Verwenden Sie die "Nachholverarbeitung" in der oberen Werkzeugleiste, um bereits im Ordner liegende Sammel-PDFs aufzuteilen.
  • Zuerst testen: Testen Sie die Konfiguration mit einem kleinen Sammel-PDF (5–10 Rechnungen), bevor Sie das vollständige Dokument verarbeiten.
  • Extraktion prüfen: Fügen Sie mehrere Beispieldateien hinzu und prüfen Sie die Extraktionsergebnisse in der Vorschau.
  • Gescannte PDFs: Falls Ihre Sammel-PDFs gescannt (als Bild) vorliegen, aktivieren Sie zuerst die Aufgabe "OCR-Texterkennung", um den Text durchsuchbar zu machen.

Weitere Schritt-für-Schritt-Anleitungen

Erste Schritte

Grundlegende Aufgaben

PDF-Bearbeitung

E-Rechnung & Archivierung

Praxisbeispiele


Zur Automatic PDF Processor-Übersichtsseite
Automatic PDF Processor jetzt unverbindlich 30 Tage testen ...     Zum Download