18 PDFs aufteilen

Aufgabe: PDFs aufteilen

18.1 Beschreibung

Die Aufgabe PDFs aufteilen zerlegt ein mehrseitiges PDF-Dokument in mehrere einzelne Dateien. Die Aufteilung kann nach verschiedenen Kriterien erfolgen: Seitenzahl, Dateigröße, Lesezeichen, Schlüsselwörter, Barcodes, Leerseiten oder Trennseiten.

Typische Anwendungsfälle

  • Stapelverarbeitung: Große Scan-Dateien in einzelne Dokumente aufteilen
  • Rechnungstrennung: Sammel-PDFs in einzelne Rechnungen zerlegen
  • Archivierung: Dokumente nach Lesezeichen in separate Dateien speichern
  • Formularverarbeitung: Mehrseitige Formulare anhand von Trennseiten aufteilen

Wichtig: Diese Aufgabe erzeugt neue Dateien im konfigurierten Zielordner. Die Originaldatei bleibt unverändert. Die im aktuellen Profil enthaltenen weiteren Aufgaben beziehen sich alle auf die Originaldatei. Die durch diese Aufgabe erzeugten Teildokumente müssen bei Bedarf mit einem separaten Profil weiterverarbeitet werden, das den entsprechenden Ausgabeordner überwacht.


18.2 Allgemeine Einstellungen

Aktiviert

Aktivieren Sie diese Option, damit die Aufgabe bei passenden PDF-Dateien ausgeführt wird. Deaktivierte Aufgaben werden übersprungen.


18.3 Aufteilungsmethode

Wählen Sie, nach welchem Kriterium das PDF aufgeteilt werden soll:

Methode Beschreibung
Seitenanzahl Nach einer festen Anzahl von Seiten aufteilen
Dateigröße Wenn eine bestimmte Dateigröße überschritten wird
Lesezeichen der obersten Ebene Bei jedem Lesezeichen (Bookmark) der obersten Ebene
Schlüsselwörter Wenn bestimmte Texte auf Seiten enthalten oder nicht enthalten sind
Barcode Basierend auf QR-Codes oder Barcodes
Platzhalter (Änderung des Wertes) Wenn ein extrahierter Wert sich ändert
Trennseite mit Text Bei Seiten mit bestimmtem Textinhalt
Leerseiten Bei leeren Seiten

18.4 Nach Seitenanzahl

Anzahl der Seiten pro Dokument

Geben Sie an, nach wie vielen Seiten ein neues Teildokument beginnen soll.

Beispiel: Bei einem 10-seitigen PDF mit Einstellung “3 Seiten” entstehen: - Teildokument 1: Seiten 1-3 - Teildokument 2: Seiten 4-6 - Teildokument 3: Seiten 7-9 - Teildokument 4: Seite 10


18.5 Nach Dateigröße

Maximale Dateigröße (MB)

Geben Sie die maximale Größe pro Teildokument in Megabyte an. Wenn das Hinzufügen einer weiteren Seite die Grenze überschreiten würde, beginnt ein neues Teildokument.

Hinweis: Die tatsächliche Größe kann je nach PDF-Inhalt variieren. Die Einstellung ist ein Richtwert.


18.6 Nach Lesezeichen der obersten Ebene

Bei dieser Methode wird bei jedem Lesezeichen (Bookmark) der obersten Ebene ein neues Teildokument erstellt. Dies ist besonders nützlich bei strukturierten Dokumenten wie Handbüchern oder Berichten.

Voraussetzung: Das PDF muss Lesezeichen enthalten.

Spezieller Platzhalter

Bei der Aufteilung nach Lesezeichen steht ein zusätzlicher Platzhalter für den Dateinamen zur Verfügung: - <SplittingBookmarkTitle> - Der Titel des Lesezeichens

Beispiel: - Dateiname-Vorlage: <FileName>_<SplittingBookmarkTitle> - Ergebnis: Handbuch_Kapitel1.pdf, Handbuch_Kapitel2.pdf, etc.


18.7 Nach Schlüsselwörtern

Teilt das Dokument auf, wenn bestimmte Texte auf einer Seite gefunden werden.

Neues Dokument beginnen bei Seiten mit

Geben Sie den Text ein, der eine Aufteilung auslösen soll. Wenn dieser Text auf einer Seite gefunden wird, beginnt dort ein neues Teildokument.

Beispiel: “Rechnung Nr.” - Jede Seite, die diesen Text enthält, startet ein neues Dokument.

Neues Dokument beginnen bei Seiten ohne

Geben Sie einen Text ein, der auf Trennseiten nicht enthalten ist. Nützlich, wenn Trennseiten leere Seiten oder spezielle Seiten sind.

Neues Dokument beenden bei Seiten mit

Optional: Text, der das Ende eines Teildokuments markiert.

Neues Dokument beenden bei Seiten ohne

Optional: Beendet das Teildokument bei Seiten, die diesen Text nicht enthalten.

Fehler auslösen, wenn Schlüsselwort nicht gefunden

Aktivieren Sie diese Option, wenn die Verarbeitung fehlschlagen soll, falls das Schlüsselwort im gesamten Dokument nicht gefunden wird.


18.8 Nach Barcode

Teilt das Dokument basierend auf QR-Codes oder Barcodes auf.

Barcode-Format

Wählen Sie das Format des zu erkennenden Barcodes: - QR-Code - Code 128 - Code 39 - EAN-13, EAN-8 - Data Matrix - PDF417 - Aztec - UPC-A, UPC-E

Bildrauschunterdrückung und Rotationskorrektur

Legt fest, wie gründlich nach Barcodes gesucht wird: - Gering - Schnelle Erkennung, geringere Genauigkeit - Mittel - Ausgewogene Einstellung (Standard) - Hoch - Gründliche Suche - Sehr hoch - Maximale Genauigkeit, langsamste Verarbeitung

Auslöser

Wählen Sie, wann eine neue Aufteilung erfolgen soll:

Auslöser Beschreibung
Allen Vorkommen des Barcodes Bei jedem gefundenen Barcode
Änderung der Barcode-Daten Wenn sich der Barcode-Inhalt ändert
Barcode-Daten mit dem Text Wenn der Barcode einen bestimmten Text enthält

Weitere Optionen

  • Seiten vor dem ersten gültigen Barcode überspringen - Seiten ohne Barcode am Anfang werden nicht in Teildokumente aufgenommen
  • Seiten nach dem letzten gültigen Barcode überspringen - Seiten ohne Barcode am Ende werden nicht aufgenommen
  • Trennseiten ausschließen - Seiten mit dem auslösenden Barcode werden nicht in die Teildokumente übernommen

18.9 Nach Platzhalter (Änderung des Wertes)

Teilt das Dokument auf, wenn sich ein extrahierter Wert von Seite zu Seite ändert.

Extrahierungsregel auswählen

Wählen Sie eine zuvor definierte Extrahierungsregel. Wenn der extrahierte Wert sich zwischen zwei Seiten ändert, beginnt ein neues Teildokument.

Beispiel: Sie haben eine Regel “Kundennummer”, die die Kundennummer aus jeder Seite extrahiert. Bei einer Sammelrechnung mit Seiten für verschiedene Kunden wird automatisch bei jeder neuen Kundennummer getrennt.

Seiten überspringen bis zur ersten gültigen Extraktion

Aktivieren Sie diese Option, um Seiten am Anfang zu überspringen, auf denen keine Daten extrahiert werden können.


18.10 Nach Trennseite mit Text

Erkennt spezielle Trennseiten anhand von definierten Schlüsselwörtern.

Seite enthält

Geben Sie den Text ein, der auf Trennseiten enthalten ist (z.B. “— TRENNSEITE —”).

Seite enthält nicht

Optional: Text, der auf Trennseiten nicht enthalten sein darf.


18.11 Nach Leerseiten

Teilt das Dokument an Leerseiten auf. Eine Seite gilt als leer, wenn sie keinen Text enthält (0 Zeichen).

Anwendungsfall: Gescannte Dokumente werden oft mit Leerseiten zwischen einzelnen Dokumenten versehen.


18.12 Seitenausschluss

Zeitpunkt des Ausschlusses

  • Nach dem Aufteilen - Ausschlussregeln werden auf die Teildokumente angewandt
  • Vor dem Aufteilen - Ausschlussregeln werden vor der Aufteilung auf das Gesamtdokument angewandt

Seiten mit weniger als X Zeichen ausschließen

Entfernt Seiten mit weniger als der angegebenen Zeichenzahl. Nützlich zum Entfernen von Leer- oder Trennseiten.

Seiten mit Text ausschließen

Schließt Seiten aus, die den angegebenen Text enthalten.

Seiten ohne Text ausschließen

Schließt Seiten aus, die den angegebenen Text nicht enthalten.


18.13 Quelle für neue Dokumente

Teildokumente mit leerem Dokument beginnen

Die Teildokumente werden als neue, leere PDFs erstellt und nur die relevanten Seiten eingefügt. Dies ist die Standard-Einstellung und erzeugt kleinere Dateien.

Teildokumente mit Struktur und Metadaten des Originals beginnen

Die Teildokumente behalten die PDF-Struktur und Metadaten (Autor, Titel, etc.) des Originals bei. Wählen Sie diese Option, wenn diese Informationen wichtig sind.


18.14 Speicherort

Verzeichnis

Geben Sie das Zielverzeichnis für die Teildokumente an.

Hinweis: Es wird empfohlen, für jeden Verarbeitungsschritt einen eigenen Ordner zu verwenden, um eine klare Trennung zu gewährleisten.

Dateiname

Legen Sie das Namensschema für die Teildokumente fest. Zusätzlich zu den Standard-Platzhaltern stehen spezielle Platzhalter zur Verfügung:

Platzhalter Beschreibung Beispiel
<SplittingNumber> Laufende Nummer des Teildokuments 1, 2, 3, …
<SplittingNumberWithLeadingZeros{N}> Nummer mit führenden Nullen (N Stellen) 001, 002, …
<SplittingBookmarkTitle> Lesezeichen-Titel (nur bei Lesezeichen-Splitting) Kapitel1

Beispiele:

Eingabe Ergebnis
<FileName>_Teil<SplittingNumber> Rechnung_Teil1.pdf, Rechnung_Teil2.pdf
<FileName>_<SplittingNumberWithLeadingZeros{3}> Rechnung_001.pdf, Rechnung_002.pdf
<SplittingBookmarkTitle> Einleitung.pdf, Hauptteil.pdf

Namenskollisionen

Wählen Sie, was passieren soll, wenn bereits eine Datei mit dem Zielnamen existiert:

Option Beschreibung
Überschreiben Die vorhandene Datei wird ersetzt
Nummerierung anfügen Fügt eine Nummer an
Datum anfügen Fügt das Verarbeitungsdatum an
Datum und Uhrzeit anfügen Fügt Datum und Uhrzeit an
Vorgang abbrechen Die Aufteilung wird nicht durchgeführt

18.15 Dateidatum

Erstellungs- und Änderungsdatum anpassen

Optional können Sie das Dateidatum der Teildokumente ändern:

Option Beschreibung
Nicht ändern Die Dateien erhalten automatisch das aktuelle Datum
Erstellungsdatum der Originaldatei Übernimmt das ursprüngliche Erstellungsdatum
Änderungsdatum der Originaldatei Übernimmt das Änderungsdatum
PDF-Erstellungsdatum Datum aus den PDF-Metadaten
Extrahiertes Datum Ein mit einer Extrahierungsregel gewonnenes Datum
Aktuelles Datum Setzt das heutige Datum

18.16 Im Anschluss

Externes Programm aufrufen

Nach dem Aufteilen kann automatisch ein externes Programm für jedes Teildokument gestartet werden.

Programm: Pfad zur ausführbaren Datei

Parameter: Kommandozeilenparameter. Verfügbare Platzhalter: - <PathIncludingFilename> - Vollständiger Pfad des Teildokuments - <ParentDirectory> - Pfad des Elternordners - <Filename> - Dateiname des Teildokuments


18.17 Beispiel: Sammelrechnung nach Kunden aufteilen

Ausgangssituation

Sie erhalten eine monatliche Sammelrechnung als PDF, die Rechnungen für mehrere Kunden enthält. Jede Kundenrechnung beginnt mit dem Text “Rechnung für:”.

Konfiguration

  1. Aktiviert: Ja
  2. Aufteilungsmethode: Schlüsselwörter
  3. Neues Dokument beginnen bei Seiten mit: Rechnung für:
  4. Verzeichnis: D:\Rechnungen\Aufgeteilt
  5. Dateiname: Rechnung_<SplittingNumber>_<TodaysYear4><TodaysMonth>
  6. Bei Namenskollision: Nummerierung anfügen

Ergebnis

Originaldatei Teildokumente
Sammelrechnung_Dezember.pdf (30 Seiten) Rechnung_1_202412.pdf, Rechnung_2_202412.pdf, etc.

18.18 Beispiel: Handbuch nach Kapiteln aufteilen

Ausgangssituation

Ein Handbuch mit Lesezeichen für jedes Kapitel soll in einzelne Kapitel-PDFs aufgeteilt werden.

Konfiguration

  1. Aktiviert: Ja
  2. Aufteilungsmethode: Lesezeichen der obersten Ebene
  3. Verzeichnis: D:\Dokumente\Kapitel
  4. Dateiname: <FileName>_<SplittingBookmarkTitle>
  5. Bei Namenskollision: Nummerierung anfügen

Ergebnis

Lesezeichen Teildokument
“Einleitung” Handbuch_Einleitung.pdf
“Kapitel 1 - Installation” Handbuch_Kapitel 1 - Installation.pdf
“Kapitel 2 - Konfiguration” Handbuch_Kapitel 2 - Konfiguration.pdf

18.5 Tipps und Hinweise

Weiterverarbeitung der Teildokumente

Die erzeugten Teildokumente befinden sich im konfigurierten Zielordner. Um sie weiter zu verarbeiten (z.B. OCR, Umbenennung, E-Mail-Versand), erstellen Sie ein separates Profil, das diesen Zielordner überwacht.

Nummerierung mit führenden Nullen

Für eine bessere Sortierung im Dateimanager verwenden Sie <SplittingNumberWithLeadingZeros{3}> statt <SplittingNumber>. So werden Dateien korrekt sortiert: 001, 002, ... 010, 011 statt 1, 10, 11, 2, 3.

Barcode-Erkennung optimieren

Wenn Barcodes nicht zuverlässig erkannt werden: - Erhöhen Sie das Preprocessing auf “Detailed” oder “ExtremeDetail” - Stellen Sie sicher, dass das richtige Barcode-Format ausgewählt ist - Aktivieren Sie in den Programmoptionen das maschinelle Lernen für Barcode-Erkennung

Trennseiten entfernen

Um Trennseiten nicht in den Teildokumenten zu haben: - Bei Barcode-Splitting: Aktivieren Sie “Trennseiten ausschließen” - Bei anderen Methoden: Verwenden Sie den Seitenausschluss mit dem Text der Trennseite

Kombination von Kriterien

Wenn ein einzelnes Kriterium nicht ausreicht, können Sie nach dem Aufteilen ein zweites Profil mit einer anderen Aufteilungsmethode auf die Teildokumente anwenden.

Speicherplatz beachten

Beim Aufteilen großer PDFs entstehen viele einzelne Dateien. Stellen Sie sicher, dass ausreichend Speicherplatz vorhanden ist.