Aufgabe: Extraktionen speichern
21.1 Beschreibung
Die Aufgabe Extraktionen speichern exportiert die mit Extrahierungsregeln gewonnenen Daten in eine externe Datei. Aktuell wird das CSV-Format unterstützt, das von nahezu allen Anwendungen importiert werden kann.
Typische Anwendungsfälle
- Buchhaltung: Rechnungsdaten (Nummer, Datum, Betrag) für den Import in die Buchhaltungssoftware exportieren
- Dokumentenmanagement: Metadaten für die Indexierung in ein DMS übertragen
- Datenerfassung: Extrahierte Informationen in einer zentralen Tabelle sammeln
- Automatisierung: Strukturierte Daten für nachfolgende Verarbeitungsschritte bereitstellen
21.2 Allgemeine Einstellungen
Aktiviert
Aktivieren Sie diese Option, damit die Aufgabe bei passenden PDF-Dateien ausgeführt wird. Deaktivierte Aufgaben werden übersprungen.
21.3 Zu exportierende Regeln
Regelauswahl
Wählen Sie die Extrahierungsregeln aus, deren Werte in die Datei geschrieben werden sollen. Jede ausgewählte Regel wird als separate Spalte in der CSV-Datei dargestellt.
Hinweis: Nur Regeln, die im Profil definiert sind und Daten extrahieren, können exportiert werden. Die Reihenfolge der Regeln in der Auswahl bestimmt die Spaltenreihenfolge in der CSV-Datei.
21.4 CSV-Einstellungen
Trennzeichen
Das Zeichen, das die einzelnen Werte (Spalten) trennt. Standardmäßig wird das Listentrennzeichen des Systems verwendet.
| Trennzeichen |
Beschreibung |
, (Komma) |
Internationaler Standard |
; (Semikolon) |
Deutscher Standard, empfohlen für deutsche Excel-Versionen |
\t (Tabulator) |
Für TAB-getrennte Dateien |
Tipp: Verwenden Sie ; wenn Sie die Datei mit deutschen Excel-Versionen öffnen möchten.
Spaltenüberschriften
Aktivieren Sie diese Option, um in der ersten Zeile die Namen der Extrahierungsregeln als Spaltenüberschriften auszugeben.
Beispiel mit Spaltenüberschriften:
Rechnungsnummer;Datum;Betrag
RE-12345;15.12.2024;1250,00
RE-12346;16.12.2024;890,50
Beispiel ohne Spaltenüberschriften:
RE-12345;15.12.2024;1250,00
RE-12346;16.12.2024;890,50
Sammeldatei
Aktivieren Sie diese Option, um alle extrahierten Daten in einer gemeinsamen Datei zu sammeln. Neue Datensätze werden am Ende der Datei angehängt.
- Aktiviert: Alle PDFs schreiben in dieselbe CSV-Datei (eine Zeile pro PDF)
- Deaktiviert: Jedes PDF erzeugt eine separate CSV-Datei
Anwendungsfall: Sie verarbeiten täglich mehrere Rechnungen und möchten alle Daten in einer einzigen Übersichtsdatei sammeln.
Mehrzeilige Werte expandieren
Wenn eine Extrahierungsregel mehrzeilige Werte liefert (z.B. mehrere Positionen einer Rechnung), können Sie festlegen, wie diese behandelt werden:
- Nicht expandieren (Standard): Der mehrzeilige Text bleibt in einer Zelle
- Regel auswählen: Der mehrzeilige Wert wird in separate CSV-Zeilen aufgeteilt (mit Wiederholung der anderen Spaltenwerte)
Beispiel: Eine Rechnung mit 3 Positionen - Ohne Expansion: Position 1↵Position 2↵Position 3 in einer Zelle - Mit Expansion: 3 separate Zeilen in der CSV
21.5 Zeichencodierung
Wählen Sie die Zeichencodierung für die Ausgabedatei:
| Codierung |
Beschreibung |
Empfohlen für |
| ANSI |
Windows-Standardcodierung |
Ältere Anwendungen |
| UTF-8 |
Unicode ohne BOM |
Web, moderne Anwendungen |
| UTF-8 mit BOM |
Unicode mit Byte Order Mark |
Excel (empfohlen) |
| UTF-16 LE/BE |
16-Bit Unicode |
Spezielle Anwendungen |
| ASCII |
Nur Standardzeichen |
Legacy-Systeme |
Empfehlung: Verwenden Sie “UTF-8 mit BOM” für beste Kompatibilität mit Excel und Umlauten.
21.6 Speicherort
Verzeichnis
Geben Sie das Zielverzeichnis für die CSV-Datei an.
Hinweis: Es wird empfohlen, für jeden Verarbeitungsschritt einen eigenen Ordner zu verwenden, um eine klare Trennung zu gewährleisten.
Dateiname
Legen Sie den Namen für die CSV-Datei fest.
Beispiele:
| Eingabe |
Ergebnis |
Export |
Export.csv |
<TodaysYear4>-<TodaysMonth>-<TodaysDay>_Rechnungen |
2024-12-15_Rechnungen.csv |
<FileName>_Daten |
Rechnung123_Daten.csv |
Bei Sammeldatei: Verwenden Sie einen festen Namen oder einen Datums-Platzhalter für tägliche/monatliche Dateien.
Namenskollisionen
Wählen Sie, was passieren soll, wenn bereits eine Datei mit dem Zielnamen existiert:
| Option |
Beschreibung |
| Überschreiben |
Die vorhandene Datei wird ersetzt |
| Nummerierung anfügen |
Fügt eine Nummer an |
| Datum anfügen |
Fügt das Verarbeitungsdatum an |
| Datum und Uhrzeit anfügen |
Fügt Datum und Uhrzeit an |
| Vorgang abbrechen |
Die Datei wird nicht geschrieben |
Bei Sammeldatei: Diese Einstellung gilt nur für neue Dateien. Bei aktivierter Sammeldatei werden neue Zeilen immer angehängt.
21.7 Dateidatum
Erstellungs- und Änderungsdatum anpassen
Optional können Sie das Dateidatum der CSV-Datei ändern:
| Option |
Beschreibung |
| Nicht ändern |
Die Datei erhält automatisch das aktuelle Datum |
| Erstellungsdatum der Originaldatei |
Übernimmt das Erstellungsdatum der PDF |
| Änderungsdatum der Originaldatei |
Übernimmt das Änderungsdatum der PDF |
| PDF-Erstellungsdatum |
Datum aus den PDF-Metadaten |
| Extrahiertes Datum |
Ein mit einer Extrahierungsregel gewonnenes Datum |
| Aktuelles Datum |
Setzt das heutige Datum |
21.8 Im Anschluss
Externes Programm aufrufen
Nach dem Speichern kann automatisch ein externes Programm gestartet werden.
Programm: Pfad zur ausführbaren Datei
Parameter: Kommandozeilenparameter. Verfügbare Platzhalter: - <PathIncludingFilename> - Vollständiger Pfad der CSV-Datei - <ParentDirectory> - Pfad des Elternordners - <Filename> - Dateiname der CSV-Datei
21.9 Beispiel: Rechnungsdaten für Buchhaltung exportieren
Ausgangssituation
Eingehende Rechnungen sollen automatisch verarbeitet werden. Die Rechnungsdaten (Nummer, Datum, Lieferant, Betrag) sollen in eine CSV-Datei exportiert werden, die monatlich in die Buchhaltungssoftware importiert wird.
Voraussetzungen
Extrahierungsregeln definiert für: - Regel 1: “Rechnungsnummer” - Regel 2: “Rechnungsdatum” - Regel 3: “Lieferant” - Regel 4: “Bruttobetrag”
Konfiguration
- Aktiviert: Ja
- Ausgewählte Regeln: Alle vier Regeln
- Trennzeichen:
;
- Spaltenüberschriften: Ja
- Sammeldatei: Ja
- Zeichencodierung: UTF-8 mit BOM
- Verzeichnis:
D:\Buchhaltung\Import
- Dateiname:
Rechnungen_<TodaysYear4>-<TodaysMonth>
Ergebnis
Alle im Dezember 2024 verarbeiteten Rechnungen werden in einer Datei gesammelt:
Datei: D:\Buchhaltung\Import\Rechnungen_2024-12.csv
Rechnungsnummer;Rechnungsdatum;Lieferant;Bruttobetrag
RE-12345;15.12.2024;Mustermann GmbH;1250,00
RE-12346;16.12.2024;Schmidt AG;890,50
RE-12347;17.12.2024;Beispiel KG;2100,00
21.10 Beispiel: Einzelne CSV pro PDF
Ausgangssituation
Jede verarbeitete Rechnung soll eine eigene CSV-Datei mit den extrahierten Daten erhalten, um sie einem Dokumentenmanagementsystem als Begleitdatei beizufügen.
Konfiguration
- Aktiviert: Ja
- Ausgewählte Regeln: Alle relevanten Regeln
- Sammeldatei: Nein
- Verzeichnis:
D:\Archiv\<TodaysYear4>\<TodaysMonth>
- Dateiname:
<FileName>
Ergebnis
| PDF-Datei |
CSV-Datei |
Rechnung_12345.pdf |
D:\Archiv\2024\12\Rechnung_12345.csv |
Rechnung_12346.pdf |
D:\Archiv\2024\12\Rechnung_12346.csv |
21.6 Tipps und Hinweise
Sonderzeichen in Werten
Wenn extrahierte Werte das Trennzeichen enthalten (z.B. , in einem Betrag), werden die Werte automatisch in Anführungszeichen gesetzt:
"Mustermann, GmbH";15.12.2024;1250,00
Leere Werte
Wenn eine Extrahierungsregel für ein bestimmtes PDF keinen Wert liefert, wird ein leeres Feld geschrieben:
RE-12345;;Mustermann GmbH;1250,00
(Hier fehlt das Datum)
Reihenfolge der Spalten
Die Spaltenreihenfolge in der CSV-Datei entspricht der Reihenfolge der ausgewählten Regeln. Ändern Sie die Auswahl-Reihenfolge, um die Spaltenreihenfolge anzupassen.
Excel-Import
Für einen problemlosen Import in Excel: 1. Verwenden Sie ; als Trennzeichen (bei deutscher Excel-Version) 2. Wählen Sie UTF-8 mit BOM als Codierung 3. Aktivieren Sie Spaltenüberschriften
Kombination mit anderen Aufgaben
Die Aufgabe “Extraktionen speichern” kann gut mit anderen Aufgaben kombiniert werden: 1. Datei umbenennen: PDF nach extrahierten Daten umbenennen 2. Datei kopieren: PDF ins Archiv kopieren 3. Extraktionen speichern: Daten für Import exportieren 4. E-Mail versenden: Benachrichtigung mit extrahierten Daten senden