18 PDFs aufteilen
Aufgabe: PDFs aufteilen
18.1 Beschreibung
Die Aufgabe PDFs aufteilen zerlegt ein mehrseitiges PDF-Dokument in mehrere einzelne Dateien. Die Aufteilung kann nach verschiedenen Kriterien erfolgen: Seitenzahl, Dateigröße, Lesezeichen, Schlüsselwörter, Barcodes, Leerseiten oder Trennseiten.
Typische Anwendungsfälle
- Stapelverarbeitung: Große Scan-Dateien in einzelne Dokumente aufteilen
- Rechnungstrennung: Sammel-PDFs in einzelne Rechnungen zerlegen
- Archivierung: Dokumente nach Lesezeichen in separate Dateien speichern
- Formularverarbeitung: Mehrseitige Formulare anhand von Trennseiten aufteilen
Wichtig: Diese Aufgabe erzeugt neue Dateien im konfigurierten Zielordner. Die Originaldatei bleibt unverändert. Die im aktuellen Profil enthaltenen weiteren Aufgaben beziehen sich alle auf die Originaldatei. Die durch diese Aufgabe erzeugten Teildokumente müssen bei Bedarf mit einem separaten Profil weiterverarbeitet werden, das den entsprechenden Ausgabeordner überwacht.
18.2 Allgemeine Einstellungen
Aktiviert
Aktivieren Sie diese Option, damit die Aufgabe bei passenden PDF-Dateien ausgeführt wird. Deaktivierte Aufgaben werden übersprungen.
18.3 Aufteilungsmethode
Wählen Sie, nach welchem Kriterium das PDF aufgeteilt werden soll:
| Methode |
Beschreibung |
| Seitenanzahl |
Nach einer festen Anzahl von Seiten aufteilen |
| Dateigröße |
Wenn eine bestimmte Dateigröße überschritten wird |
| Lesezeichen der obersten Ebene |
Bei jedem Lesezeichen (Bookmark) der obersten Ebene |
| Schlüsselwörter |
Wenn bestimmte Texte auf Seiten enthalten oder nicht enthalten sind |
| Barcode |
Basierend auf QR-Codes oder Barcodes |
| Platzhalter (Änderung des Wertes) |
Wenn ein extrahierter Wert sich ändert |
| Trennseite mit Text |
Bei Seiten mit bestimmtem Textinhalt |
| Leerseiten |
Bei leeren Seiten |
18.4 Nach Seitenanzahl
Anzahl der Seiten pro Dokument
Geben Sie an, nach wie vielen Seiten ein neues Teildokument beginnen soll.
Beispiel: Bei einem 10-seitigen PDF mit Einstellung “3 Seiten” entstehen: - Teildokument 1: Seiten 1-3 - Teildokument 2: Seiten 4-6 - Teildokument 3: Seiten 7-9 - Teildokument 4: Seite 10
18.5 Nach Dateigröße
Maximale Dateigröße (MB)
Geben Sie die maximale Größe pro Teildokument in Megabyte an. Wenn das Hinzufügen einer weiteren Seite die Grenze überschreiten würde, beginnt ein neues Teildokument.
Hinweis: Die tatsächliche Größe kann je nach PDF-Inhalt variieren. Die Einstellung ist ein Richtwert.
18.6 Nach Lesezeichen der obersten Ebene
Bei dieser Methode wird bei jedem Lesezeichen (Bookmark) der obersten Ebene ein neues Teildokument erstellt. Dies ist besonders nützlich bei strukturierten Dokumenten wie Handbüchern oder Berichten.
Voraussetzung: Das PDF muss Lesezeichen enthalten.
Spezieller Platzhalter
Bei der Aufteilung nach Lesezeichen steht ein zusätzlicher Platzhalter für den Dateinamen zur Verfügung: - <SplittingBookmarkTitle> - Der Titel des Lesezeichens
Beispiel: - Dateiname-Vorlage: <FileName>_<SplittingBookmarkTitle> - Ergebnis: Handbuch_Kapitel1.pdf, Handbuch_Kapitel2.pdf, etc.
18.7 Nach Schlüsselwörtern
Teilt das Dokument auf, wenn bestimmte Texte auf einer Seite gefunden werden.
Neues Dokument beginnen bei Seiten mit
Geben Sie den Text ein, der eine Aufteilung auslösen soll. Wenn dieser Text auf einer Seite gefunden wird, beginnt dort ein neues Teildokument.
Beispiel: “Rechnung Nr.” - Jede Seite, die diesen Text enthält, startet ein neues Dokument.
Neues Dokument beginnen bei Seiten ohne
Geben Sie einen Text ein, der auf Trennseiten nicht enthalten ist. Nützlich, wenn Trennseiten leere Seiten oder spezielle Seiten sind.
Neues Dokument beenden bei Seiten mit
Optional: Text, der das Ende eines Teildokuments markiert.
Neues Dokument beenden bei Seiten ohne
Optional: Beendet das Teildokument bei Seiten, die diesen Text nicht enthalten.
Fehler auslösen, wenn Schlüsselwort nicht gefunden
Aktivieren Sie diese Option, wenn die Verarbeitung fehlschlagen soll, falls das Schlüsselwort im gesamten Dokument nicht gefunden wird.
18.8 Nach Barcode
Teilt das Dokument basierend auf QR-Codes oder Barcodes auf.
Wählen Sie das Format des zu erkennenden Barcodes: - QR-Code - Code 128 - Code 39 - EAN-13, EAN-8 - Data Matrix - PDF417 - Aztec - UPC-A, UPC-E
Bildrauschunterdrückung und Rotationskorrektur
Legt fest, wie gründlich nach Barcodes gesucht wird: - Gering - Schnelle Erkennung, geringere Genauigkeit - Mittel - Ausgewogene Einstellung (Standard) - Hoch - Gründliche Suche - Sehr hoch - Maximale Genauigkeit, langsamste Verarbeitung
Auslöser
Wählen Sie, wann eine neue Aufteilung erfolgen soll:
| Auslöser |
Beschreibung |
| Allen Vorkommen des Barcodes |
Bei jedem gefundenen Barcode |
| Änderung der Barcode-Daten |
Wenn sich der Barcode-Inhalt ändert |
| Barcode-Daten mit dem Text |
Wenn der Barcode einen bestimmten Text enthält |
Weitere Optionen
- Seiten vor dem ersten gültigen Barcode überspringen - Seiten ohne Barcode am Anfang werden nicht in Teildokumente aufgenommen
- Seiten nach dem letzten gültigen Barcode überspringen - Seiten ohne Barcode am Ende werden nicht aufgenommen
- Trennseiten ausschließen - Seiten mit dem auslösenden Barcode werden nicht in die Teildokumente übernommen
18.9 Nach Platzhalter (Änderung des Wertes)
Teilt das Dokument auf, wenn sich ein extrahierter Wert von Seite zu Seite ändert.
Wählen Sie eine zuvor definierte Extrahierungsregel. Wenn der extrahierte Wert sich zwischen zwei Seiten ändert, beginnt ein neues Teildokument.
Beispiel: Sie haben eine Regel “Kundennummer”, die die Kundennummer aus jeder Seite extrahiert. Bei einer Sammelrechnung mit Seiten für verschiedene Kunden wird automatisch bei jeder neuen Kundennummer getrennt.
Aktivieren Sie diese Option, um Seiten am Anfang zu überspringen, auf denen keine Daten extrahiert werden können.
18.10 Nach Trennseite mit Text
Erkennt spezielle Trennseiten anhand von definierten Schlüsselwörtern.
Seite enthält
Geben Sie den Text ein, der auf Trennseiten enthalten ist (z.B. “— TRENNSEITE —”).
Seite enthält nicht
Optional: Text, der auf Trennseiten nicht enthalten sein darf.
18.11 Nach Leerseiten
Teilt das Dokument an Leerseiten auf. Eine Seite gilt als leer, wenn sie keinen Text enthält (0 Zeichen).
Anwendungsfall: Gescannte Dokumente werden oft mit Leerseiten zwischen einzelnen Dokumenten versehen.
18.12 Seitenausschluss
Zeitpunkt des Ausschlusses
- Nach dem Aufteilen - Ausschlussregeln werden auf die Teildokumente angewandt
- Vor dem Aufteilen - Ausschlussregeln werden vor der Aufteilung auf das Gesamtdokument angewandt
Seiten mit weniger als X Zeichen ausschließen
Entfernt Seiten mit weniger als der angegebenen Zeichenzahl. Nützlich zum Entfernen von Leer- oder Trennseiten.
Seiten mit Text ausschließen
Schließt Seiten aus, die den angegebenen Text enthalten.
Seiten ohne Text ausschließen
Schließt Seiten aus, die den angegebenen Text nicht enthalten.
18.13 Quelle für neue Dokumente
Teildokumente mit leerem Dokument beginnen
Die Teildokumente werden als neue, leere PDFs erstellt und nur die relevanten Seiten eingefügt. Dies ist die Standard-Einstellung und erzeugt kleinere Dateien.
Die Teildokumente behalten die PDF-Struktur und Metadaten (Autor, Titel, etc.) des Originals bei. Wählen Sie diese Option, wenn diese Informationen wichtig sind.
18.14 Speicherort
Verzeichnis
Geben Sie das Zielverzeichnis für die Teildokumente an.
Hinweis: Es wird empfohlen, für jeden Verarbeitungsschritt einen eigenen Ordner zu verwenden, um eine klare Trennung zu gewährleisten.
Dateiname
Legen Sie das Namensschema für die Teildokumente fest. Zusätzlich zu den Standard-Platzhaltern stehen spezielle Platzhalter zur Verfügung:
| Platzhalter |
Beschreibung |
Beispiel |
<SplittingNumber> |
Laufende Nummer des Teildokuments |
1, 2, 3, … |
<SplittingNumberWithLeadingZeros{N}> |
Nummer mit führenden Nullen (N Stellen) |
001, 002, … |
<SplittingBookmarkTitle> |
Lesezeichen-Titel (nur bei Lesezeichen-Splitting) |
Kapitel1 |
Beispiele:
| Eingabe |
Ergebnis |
<FileName>_Teil<SplittingNumber> |
Rechnung_Teil1.pdf, Rechnung_Teil2.pdf |
<FileName>_<SplittingNumberWithLeadingZeros{3}> |
Rechnung_001.pdf, Rechnung_002.pdf |
<SplittingBookmarkTitle> |
Einleitung.pdf, Hauptteil.pdf |
Namenskollisionen
Wählen Sie, was passieren soll, wenn bereits eine Datei mit dem Zielnamen existiert:
| Option |
Beschreibung |
| Überschreiben |
Die vorhandene Datei wird ersetzt |
| Nummerierung anfügen |
Fügt eine Nummer an |
| Datum anfügen |
Fügt das Verarbeitungsdatum an |
| Datum und Uhrzeit anfügen |
Fügt Datum und Uhrzeit an |
| Vorgang abbrechen |
Die Aufteilung wird nicht durchgeführt |
18.15 Dateidatum
Erstellungs- und Änderungsdatum anpassen
Optional können Sie das Dateidatum der Teildokumente ändern:
| Option |
Beschreibung |
| Nicht ändern |
Die Dateien erhalten automatisch das aktuelle Datum |
| Erstellungsdatum der Originaldatei |
Übernimmt das ursprüngliche Erstellungsdatum |
| Änderungsdatum der Originaldatei |
Übernimmt das Änderungsdatum |
| PDF-Erstellungsdatum |
Datum aus den PDF-Metadaten |
| Extrahiertes Datum |
Ein mit einer Extrahierungsregel gewonnenes Datum |
| Aktuelles Datum |
Setzt das heutige Datum |
18.16 Im Anschluss
Externes Programm aufrufen
Nach dem Aufteilen kann automatisch ein externes Programm für jedes Teildokument gestartet werden.
Programm: Pfad zur ausführbaren Datei
Parameter: Kommandozeilenparameter. Verfügbare Platzhalter: - <PathIncludingFilename> - Vollständiger Pfad des Teildokuments - <ParentDirectory> - Pfad des Elternordners - <Filename> - Dateiname des Teildokuments
18.17 Beispiel: Sammelrechnung nach Kunden aufteilen
Ausgangssituation
Sie erhalten eine monatliche Sammelrechnung als PDF, die Rechnungen für mehrere Kunden enthält. Jede Kundenrechnung beginnt mit dem Text “Rechnung für:”.
Konfiguration
- Aktiviert: Ja
- Aufteilungsmethode: Schlüsselwörter
- Neues Dokument beginnen bei Seiten mit:
Rechnung für:
- Verzeichnis:
D:\Rechnungen\Aufgeteilt
- Dateiname:
Rechnung_<SplittingNumber>_<TodaysYear4><TodaysMonth>
- Bei Namenskollision: Nummerierung anfügen
Ergebnis
| Originaldatei |
Teildokumente |
Sammelrechnung_Dezember.pdf (30 Seiten) |
Rechnung_1_202412.pdf, Rechnung_2_202412.pdf, etc. |
18.18 Beispiel: Handbuch nach Kapiteln aufteilen
Ausgangssituation
Ein Handbuch mit Lesezeichen für jedes Kapitel soll in einzelne Kapitel-PDFs aufgeteilt werden.
Konfiguration
- Aktiviert: Ja
- Aufteilungsmethode: Lesezeichen der obersten Ebene
- Verzeichnis:
D:\Dokumente\Kapitel
- Dateiname:
<FileName>_<SplittingBookmarkTitle>
- Bei Namenskollision: Nummerierung anfügen
Ergebnis
| Lesezeichen |
Teildokument |
| “Einleitung” |
Handbuch_Einleitung.pdf |
| “Kapitel 1 - Installation” |
Handbuch_Kapitel 1 - Installation.pdf |
| “Kapitel 2 - Konfiguration” |
Handbuch_Kapitel 2 - Konfiguration.pdf |
18.5 Tipps und Hinweise
Weiterverarbeitung der Teildokumente
Die erzeugten Teildokumente befinden sich im konfigurierten Zielordner. Um sie weiter zu verarbeiten (z.B. OCR, Umbenennung, E-Mail-Versand), erstellen Sie ein separates Profil, das diesen Zielordner überwacht.
Nummerierung mit führenden Nullen
Für eine bessere Sortierung im Dateimanager verwenden Sie <SplittingNumberWithLeadingZeros{3}> statt <SplittingNumber>. So werden Dateien korrekt sortiert: 001, 002, ... 010, 011 statt 1, 10, 11, 2, 3.
Barcode-Erkennung optimieren
Wenn Barcodes nicht zuverlässig erkannt werden: - Erhöhen Sie das Preprocessing auf “Detailed” oder “ExtremeDetail” - Stellen Sie sicher, dass das richtige Barcode-Format ausgewählt ist - Aktivieren Sie in den Programmoptionen das maschinelle Lernen für Barcode-Erkennung
Trennseiten entfernen
Um Trennseiten nicht in den Teildokumenten zu haben: - Bei Barcode-Splitting: Aktivieren Sie “Trennseiten ausschließen” - Bei anderen Methoden: Verwenden Sie den Seitenausschluss mit dem Text der Trennseite
Kombination von Kriterien
Wenn ein einzelnes Kriterium nicht ausreicht, können Sie nach dem Aufteilen ein zweites Profil mit einer anderen Aufteilungsmethode auf die Teildokumente anwenden.
Speicherplatz beachten
Beim Aufteilen großer PDFs entstehen viele einzelne Dateien. Stellen Sie sicher, dass ausreichend Speicherplatz vorhanden ist.