9 Extrahierungsregeln

9.1 Übersicht

Extrahierungsregeln ermöglichen das automatische Auslesen von Informationen aus PDF-Dokumenten. Die extrahierten Daten können in Dateinamen, E-Mail-Texten, Zielordnern und vielen anderen Kontexten als Platzhalter verwendet werden.

Öffnen: Klicken Sie in den Profileinstellungen unter Datenextrahierung auf Hinzufügen oder Bearbeiten.

Typische Anwendungen

Anwendung Beispiel
Dateinamen <Rechnungsdatum>_<Rechnungsnummer>.pdf
Zielordner D:\Archiv\<Jahr>\<Monat>\
E-Mail-Betreff Rechnung <Rechnungsnummer> vom <Rechnungsdatum>
CSV-Export Alle extrahierten Werte in einer Tabelle

Aufbau einer Regel

Jede Regel besteht aus mehreren Komponenten:

Komponente Beschreibung
Allgemein Name, Quelle, Datentyp
Bestimmung Wie der Wert gefunden wird
Bereinigung Vorverarbeitung des Rohwerts
Verifikation Prüfung des gefundenen Werts
Format Nachformatierung des Werts

9.2 Allgemein

Die Registerkarte Allgemein enthält grundlegende Einstellungen der Regel.

9.2.1 Name

Der Name der Regel. Dieser Name wird für Platzhalter verwendet.

Format: <RuleId:N(Regelname)> Die Regel-ID N wird automatisch ermittelt und verwendet.

Tipp: Verwenden Sie aussagekräftige Namen ohne Sonderzeichen, zum Beispiel Kundennummer oder Rechnungsdatum.

Hinweis: Wenn Sie mehrere Regeln mit dem gleichen Namen anlegen, ist es ausreichend, wenn eine dieser Regeln ein gültiges Ergebnis erzielt. Das Programm verwendet automatisch das erste erfolgreiche Ergebnis. Dies ist nützlich für Rückfall-Szenarien, z.B. wenn eine Regel für bestimmte Dokumenttypen fehlschlägt.

9.2.2 Kommentar

Optionales Feld für Notizen zur Regel.

9.2.3 Datenquelle

Bestimmt, woher die Daten extrahiert werden:

Quelle Beschreibung
Dokumententext Text des PDF-Dokuments
Barcode Inhalt eines Barcodes im PDF
PDF-Eigenschaft Metadaten des PDFs (Titel, Autor, etc.)
Dateieigenschaft Eigenschaften der Datei (Name, Pfad, Datum)
Benutzerdefinierter Text Fester oder berechneter Wert, zum Beispiel n.v.
Platzhalterwert Referenz auf eine andere Regel, die sich oberhalb der aktuellen Regel befindet
Formularfeld Wert eines PDF-Formularfelds

9.2.4 Datentyp

Der benötigte Typ des extrahierten Werts:

Datentyp Beschreibung
Text Beliebiger Text
Datum Datumswerte mit automatischer Erkennung
Zahl Numerische Werte
Abfrage Bedingte Wertauswahl
Abfrage (mit Liste) Wert aus einer statischen oder dateibasierten Liste

9.3 Datenquelle Dokumententext oder Barcode - Bestimmung: Position

Bei der positionsbasierten Bestimmung wird mit einem größenveränderbaren Auswahlrechteck der gewünschte Bereich auf der Seite markiert.

9.3.1 Seite bestimmen

Option Beschreibung
Seitennummer angeben Auswahlrechteck wird immer auf der angegebenen Seitennummer positioniert
Seite mit Schlüsselwort finden Auswahlrechteck wird immer auf der Seite mit dem angegebenen Schlüsselwort positioniert

9.3.2 Im PDF-Viewer markieren

Markieren Sie den gewünschten Bereich direkt in der Seitenvorschau: 1. Klicken Sie auf Postion ändern und passen Sie Position und Größe des Auswahlrechtecks an, um den gewünschten Bereich festzulegen 2. Klicken Sie auf Postion fixieren


9.4 Datenquelle Dokumententext oder Barcode - Bestimmung: Schlüsselwort

Bei der Schlüsselwortbestimmung wird ein Wert relativ zu einem Suchbegriff (Schlüsselwort) extrahiert.

9.3.1 Seite bestimmen

Option Beschreibung
Keine Bestimmung notwendig Die Seite wird durch das in Datenbereich festlegen angegebene Schlüsselwort definiert
Seitennummer angeben Die Seite wird durch eine angegebene Seitennummer definiert
Seite mit Schlüsselwort finden Die Seite wird durch das hier angegebene Schlüsselwort definiert

9.4.1 Datenbereich festlegen

9.4.1.1 Schlüsselwort

Der Text, nach dem im Dokument gesucht wird.

Beispiel: Rechnungsnummer:, um die rechts danebenstehende Nummer zu finden.

9.4.1.2 Suchoptionen

Option Beschreibung
Groß-/Kleinschreibung Beachtet die Schreibweise
Regulärer Ausdruck Schlüsselwort als Regex interpretieren
Bei mehreren Vorkommen Ein bestimmtes Vorkommen, sollte normalerweise das erste Vorkommen sein

9.4.1.3 Datenposition (Position relativ zum Schlüsselwort)

Position Beschreibung
Rechts Text rechts vom Schlüsselwort
Links Text links vom Schlüsselwort
Oberhalb Text oberhalb
Unterhalb Text unterhalb
Bereich der Fundstelle das gesuchte Schlüsselwort (optimal, um durch Erweitern des Datenbereichs den gewünschten Bereich festzulegen)

9.4.2 Datenbereich erweitern

Ermöglicht, den über das Schlüsselwort gefundenen Bereich, aus welchem die Daten extrahiert werden, zu verlagern und/oder zu erweitern:

Einstellung Beschreibung
Nach links Verlagert die linke Kante des Datenbereichs um einen positiven oder negativen Wert
Nach rechts Verlagert die rechte Kante des Datenbereichs um einen positiven oder negativen Wert
Nach oben Verlagert die obere Kante des Datenbereichs um einen positiven oder negativen Wert
Nach unten Verlagert die untere Kante des Datenbereichs um einen positiven oder negativen Wert

9.4.3 Datenbereichserweiterung anpassen

Wenn sich bei der vorherigen Erweiterung des Datenbereichs auf ein Schlüsselwort bezogen wurde, kann man hier noch einmal nachjustieren

9.4.4 Visualisierung im PDF-Viewer

Im PDF-Viewer werden angezeigt: - Rot: Das gefundene Schlüsselwort - Grün: Der Datenbereich - Blau: Der extrahierte Wert


9.5 Datenquelle Dokumententext - Bestimmung: Text der Seite(n)

Bei dieser Bestimmung wird der gesamte Text einer oder mehrerer Seiten als Basis verwendet.

9.5.1 Datenermittlung (Seitentext)

9.5.1.1 Seite bestimmen

Option Beschreibung
Keine Bestimmung notwendig Verwendet den Text aller Seiten
Seitennummer angeben Verwendet den Text der Seite mit der angegebenen Seitennummer
Seite mit Schlüsselwort finden Verwendet den Text der Seite mit dem angegebenen Schlüsselwort

9.5.1.2 Kombination mit Bereinigung

Die Datenermittlung mittels Seitentext liefert oft viel Text. Verwenden Sie die Bereinigung, um den relevanten Teil zu extrahieren.


9.6 Datentypen

9.6.1 Text

Zur Extrahierung, Verifizierung und Formatierung von Text

Für die meisten Fälle ist der Datentyp Text die richtige Wahl.

9.6.2 Datum

Zur Extrahierung und Verifizierung eines Datums

Beim Datentyp Datum werden automatisch alle Datumsangaben im Text ausgewertet. Wenn Sie kein Schlüsselwort angeben, wird das erste gefundene Datum verwendet. Bei Verwendung dieses Datentyps stehen bei der Verwendung des Platzhalters für den Pfad oder Dateinamen alle Datumsbestandteile separat zur Verfügung. Sie können beispielsweise nur das vierstellige Jahr und den Monatsnamen verwenden.

9.6.2 Zahl

Zur Extrahierung und Verifizierung einer Zahl

9.6.1 Einfache Abfrage

Bei Abfragen wird ein Wert basierend auf Bedingungen ermittelt.

Definiert Bedingungen und zugehörige Rückgabewerte:

Dokumenttext enthält: "X<ODER>Y<ODER>Z", dann verwende als Ergebnis "Lieferschein", sonst ""

9.6.2 Abfrage (mit Liste)

Sie können mit dem Datentyp “Abfrage (mit Liste)” nach dem Vorkommen eines Begriffs suchen und den zugeordneten Wert als Ergebnis verwenden, z.B. eine E-Mail-Adresse oder einen Ordnernamen.

Listenformat: Suchbegriff und Ergebniswert werden durch Semikolon getrennt.

Beispiel 1: E-Mail-Adressen anhand von Kundennummern zuordnen:

Kundennummer : 19006;x@y.de
Kundennummer : 1900;a@b.de
Kundennummer : 18765;c@d.de

Enthält das PDF “Kundennummer : 19006”, wird “x@y.de” als Ergebnis verwendet.

Beispiel 2: IBAN suchen, Firmenname als Ergebnis verwenden:

DE02120300000000202051<ODER>DE02 1203 0000 0000 2020 51;Mustermann GmbH
DE02500105170137075030;Musterfrau GmbH

Hier wird die IBAN (mit oder ohne Leerzeichen) gesucht und der zugehörige Firmenname zurückgegeben.


9.7 Datenquelle: Formularfeld

Extrahiert Werte aus PDF-Formularfeldern.

9.7.1 Feldauswahl

Zeigt alle im PDF vorhandenen Formularfelder an:

Feldtyp Beschreibung
TextBox Texteingabefeld
CheckBox Auswahlfeld (Ja/Nein)
RadioButton Optionsfeld
ComboBox Dropdown-Liste
ListBox Auswahlliste

9.7.2 Formularfeld (Feldname)

Wählen Sie das Formularfeld nach seinem Namen aus. Der Name wird in den PDF-Formulareinstellungen definiert.


9.8 Bereinigung

Die Bereinigung ermöglicht die Vorverarbeitung des extrahierten Rohwerts.

9.8.1 Verfügbare Bereinigungsaufgaben

Ersetzen-Operationen

Aufgabe Beschreibung
Text ersetzen Ersetzt einen Text durch einen anderen
Text vor Marker ersetzen Ersetzt alles vor einem Marker
Text hinter Marker ersetzen Ersetzt alles nach einem Marker
Regex-Ergebnis ersetzen Ersetzt Regex-Treffer
Zeilenumbrüche ersetzen Ersetzt Zeilenumbrüche durch Text
Mit Excel-Datei ersetzen Ersetzt basierend auf Excel-Mapping

Einfügen-Operationen

Aufgabe Beschreibung
Vor Marker einfügen Fügt Text vor einem Marker ein
Hinter Marker einfügen Fügt Text nach einem Marker ein
An Position einfügen Fügt Text an einer bestimmten Position ein

Entfernen-Operationen

Aufgabe Beschreibung
Text entfernen Entfernt einen bestimmten Text
Text vor Marker entfernen Entfernt alles vor einem Marker
Erste/Letzte Zeichen entfernen Entfernt X Zeichen am Anfang/Ende
Regex-Ergebnis entfernen Entfernt Regex-Treffer
Leerzeilen entfernen Entfernt alle Leerzeilen
Zeilen mit Regex entfernen Entfernt Zeilen, die einem Muster entsprechen

Zeilen-Operationen

Aufgabe Beschreibung
Zeile X extrahieren Extrahiert nur eine bestimmte Zeile
Zeile X verschieben Verschiebt eine Zeile an eine andere Position
Zeilen mit Text verschieben Verschiebt Zeilen, die bestimmten Text enthalten

9.8.2 Reihenfolge der Bereinigung

Mehrere Bereinigungsaufgaben werden in der definierten Reihenfolge ausgeführt. Verwenden Sie die Pfeiltasten, um die Reihenfolge anzupassen.


9.9 Verifikation: Text

Textverifikationen prüfen den extrahierten Wert auf bestimmte Bedingungen.

9.9.1 Verfügbare Prüfungen

Prüfung Beschreibung
Text ist gleich Exakte Übereinstimmung
Text ist nicht gleich Keine Übereinstimmung
Text enthält Enthält den Suchbegriff
Text enthält nicht Enthält den Suchbegriff nicht
Text beginnt mit Startet mit dem Suchbegriff
Text endet mit Endet mit dem Suchbegriff
Text entspricht Regex Entspricht dem regulären Ausdruck
Text entspricht nicht Regex Entspricht nicht dem Ausdruck
Extrahierter Text ist leer Kein Wert extrahiert
Anzahl Zeichen Prüft die Textlänge
Anzahl Zeilen Prüft die Zeilenanzahl

9.9.2 Zeichenverifikation

Prüft einzelne Zeichen an bestimmten Positionen:

Prüfung Beschreibung
Ist Ziffer Zeichen ist 0-9
Ist Buchstabe Zeichen ist A-Z oder a-z
Ist Großbuchstabe Zeichen ist A-Z
Ist Kleinbuchstabe Zeichen ist a-z
Ist alphanumerisch Zeichen ist Buchstabe oder Ziffer
Entspricht Regex Zeichen entspricht einem Muster

9.10 Verifikation: Datum

Datumsverifikationen prüfen, ob der extrahierte Wert ein gültiges Datum ist.

9.10.1 Verfügbare Prüfungen

Prüfung Beschreibung
Datum ist gültig Wert ist ein erkennbares Datum
Datum liegt zwischen Datum liegt im angegebenen Zeitraum

9.10.2 Datumsformate

Das System erkennt automatisch verschiedene Datumsformate: - 01.12.2024 (deutsch) - 12/01/2024 (amerikanisch) - 2024-12-01 (ISO) - 1. Dezember 2024 (mit Monatsname)


9.11 Verifikation: Zahl

Zahlenverifikationen prüfen numerische Werte.

9.11.1 Verfügbare Prüfungen

Prüfung Beschreibung
Zahl ist gültig Wert ist eine erkennbare Zahl
Zahl liegt zwischen Wert liegt im Bereich

9.11.2 Zahlenformate

Erkannte Formate: - 1234 (ganzzahlig) - 1.234,56 (deutsch) - 1,234.56 (englisch) - -123,45 (negativ)


9.12 Verifikation: Abfrage

Abfrageverifikationen prüfen Werte basierend auf Bedingungen.

9.12.1 Verfügbare Prüfungen

Prüfung Beschreibung
Abfrage liefert Ergebnis Die Abfrage gibt einen Wert zurück

9.13 Formatierung

Die Formatierung ermöglicht die Nachbearbeitung des verifizierten Werts. Der wesentliche Unterschied zur Bereinigung ist, dass hier bei Ersetzungen das Suchwort vorkommen muss.

9.14 Platzhalter verwenden

Extrahierte Werte können in vielen Kontexten als Platzhalter verwendet werden.

9.14.1 Platzhalter-Syntax

Syntax Beschreibung
<Regelname> Einfacher Platzhalter
<RuleId:1(Regelname)> Vollständige Syntax mit ID
<Regelname{DatePart}> Datumsteil extrahieren

9.14.2 Datumsteile

DatePart Beschreibung Beispiel
Year4 Vierstelliges Jahr 2024
Year2 Zweistelliges Jahr 24
Month Monat (zweistellig) 12
MonthName Monatsname Dezember
MonthNameAbbreviated Monatsname kurz Dez
Day Tag (zweistellig) 15

Beispiel: <Rechnungsdatum{Year4}>-<Rechnungsdatum{Month}> ergibt “2024-12”

9.14.3 Fallback-Regeln

Wenn mehrere Regeln denselben Namen haben, wird die erste erfolgreiche Regel verwendet. Dies ermöglicht Fallback-Werte:

  1. Regel “Datum” - Versucht Extraktion aus Dokumenttext
  2. Regel “Datum” - Falls fehlgeschlagen: Verwendet Dateidatum