9.1 Übersicht
Extrahierungsregeln ermöglichen das automatische Auslesen von Informationen aus PDF-Dokumenten. Die extrahierten Daten können in Dateinamen, E-Mail-Texten, Zielordnern und vielen anderen Kontexten als Platzhalter verwendet werden.
Öffnen: Klicken Sie in den Profileinstellungen unter Datenextrahierung auf Hinzufügen oder Bearbeiten.
Typische Anwendungen
| Anwendung |
Beispiel |
| Dateinamen |
<Rechnungsdatum>_<Rechnungsnummer>.pdf |
| Zielordner |
D:\Archiv\<Jahr>\<Monat>\ |
| E-Mail-Betreff |
Rechnung <Rechnungsnummer> vom <Rechnungsdatum> |
| CSV-Export |
Alle extrahierten Werte in einer Tabelle |
Aufbau einer Regel
Jede Regel besteht aus mehreren Komponenten:
| Komponente |
Beschreibung |
| Allgemein |
Name, Quelle, Datentyp |
| Bestimmung |
Wie der Wert gefunden wird |
| Bereinigung |
Vorverarbeitung des Rohwerts |
| Verifikation |
Prüfung des gefundenen Werts |
| Format |
Nachformatierung des Werts |
9.2 Allgemein
Die Registerkarte Allgemein enthält grundlegende Einstellungen der Regel.
9.2.1 Name
Der Name der Regel. Dieser Name wird für Platzhalter verwendet.
Format: <RuleId:N(Regelname)> Die Regel-ID N wird automatisch ermittelt und verwendet.
Tipp: Verwenden Sie aussagekräftige Namen ohne Sonderzeichen, zum Beispiel Kundennummer oder Rechnungsdatum.
Hinweis: Wenn Sie mehrere Regeln mit dem gleichen Namen anlegen, ist es ausreichend, wenn eine dieser Regeln ein gültiges Ergebnis erzielt. Das Programm verwendet automatisch das erste erfolgreiche Ergebnis. Dies ist nützlich für Rückfall-Szenarien, z.B. wenn eine Regel für bestimmte Dokumenttypen fehlschlägt.
9.2.2 Kommentar
Optionales Feld für Notizen zur Regel.
9.2.3 Datenquelle
Bestimmt, woher die Daten extrahiert werden:
| Quelle |
Beschreibung |
| Dokumententext |
Text des PDF-Dokuments |
| Barcode |
Inhalt eines Barcodes im PDF |
| PDF-Eigenschaft |
Metadaten des PDFs (Titel, Autor, etc.) |
| Dateieigenschaft |
Eigenschaften der Datei (Name, Pfad, Datum) |
| Benutzerdefinierter Text |
Fester oder berechneter Wert, zum Beispiel n.v. |
| Platzhalterwert |
Referenz auf eine andere Regel, die sich oberhalb der aktuellen Regel befindet |
| Formularfeld |
Wert eines PDF-Formularfelds |
9.2.4 Datentyp
Der benötigte Typ des extrahierten Werts:
| Datentyp |
Beschreibung |
| Text |
Beliebiger Text |
| Datum |
Datumswerte mit automatischer Erkennung |
| Zahl |
Numerische Werte |
| Abfrage |
Bedingte Wertauswahl |
| Abfrage (mit Liste) |
Wert aus einer statischen oder dateibasierten Liste |
9.3 Datenquelle Dokumententext oder Barcode - Bestimmung: Position
Bei der positionsbasierten Bestimmung wird mit einem größenveränderbaren Auswahlrechteck der gewünschte Bereich auf der Seite markiert.
9.3.1 Seite bestimmen
| Option |
Beschreibung |
| Seitennummer angeben |
Auswahlrechteck wird immer auf der angegebenen Seitennummer positioniert |
| Seite mit Schlüsselwort finden |
Auswahlrechteck wird immer auf der Seite mit dem angegebenen Schlüsselwort positioniert |
9.3.2 Im PDF-Viewer markieren
Markieren Sie den gewünschten Bereich direkt in der Seitenvorschau: 1. Klicken Sie auf Postion ändern und passen Sie Position und Größe des Auswahlrechtecks an, um den gewünschten Bereich festzulegen 2. Klicken Sie auf Postion fixieren
9.4 Datenquelle Dokumententext oder Barcode - Bestimmung: Schlüsselwort
Bei der Schlüsselwortbestimmung wird ein Wert relativ zu einem Suchbegriff (Schlüsselwort) extrahiert.
9.3.1 Seite bestimmen
| Option |
Beschreibung |
| Keine Bestimmung notwendig |
Die Seite wird durch das in Datenbereich festlegen angegebene Schlüsselwort definiert |
| Seitennummer angeben |
Die Seite wird durch eine angegebene Seitennummer definiert |
| Seite mit Schlüsselwort finden |
Die Seite wird durch das hier angegebene Schlüsselwort definiert |
9.4.1 Datenbereich festlegen
9.4.1.1 Schlüsselwort
Der Text, nach dem im Dokument gesucht wird.
Beispiel: Rechnungsnummer:, um die rechts danebenstehende Nummer zu finden.
9.4.1.2 Suchoptionen
| Option |
Beschreibung |
| Groß-/Kleinschreibung |
Beachtet die Schreibweise |
| Regulärer Ausdruck |
Schlüsselwort als Regex interpretieren |
| Bei mehreren Vorkommen |
Ein bestimmtes Vorkommen, sollte normalerweise das erste Vorkommen sein |
9.4.1.3 Datenposition (Position relativ zum Schlüsselwort)
| Position |
Beschreibung |
| Rechts |
Text rechts vom Schlüsselwort |
| Links |
Text links vom Schlüsselwort |
| Oberhalb |
Text oberhalb |
| Unterhalb |
Text unterhalb |
| Bereich der Fundstelle |
das gesuchte Schlüsselwort (optimal, um durch Erweitern des Datenbereichs den gewünschten Bereich festzulegen) |
9.4.2 Datenbereich erweitern
Ermöglicht, den über das Schlüsselwort gefundenen Bereich, aus welchem die Daten extrahiert werden, zu verlagern und/oder zu erweitern:
| Einstellung |
Beschreibung |
| Nach links |
Verlagert die linke Kante des Datenbereichs um einen positiven oder negativen Wert |
| Nach rechts |
Verlagert die rechte Kante des Datenbereichs um einen positiven oder negativen Wert |
| Nach oben |
Verlagert die obere Kante des Datenbereichs um einen positiven oder negativen Wert |
| Nach unten |
Verlagert die untere Kante des Datenbereichs um einen positiven oder negativen Wert |
9.4.3 Datenbereichserweiterung anpassen
Wenn sich bei der vorherigen Erweiterung des Datenbereichs auf ein Schlüsselwort bezogen wurde, kann man hier noch einmal nachjustieren
9.4.4 Visualisierung im PDF-Viewer
Im PDF-Viewer werden angezeigt: - Rot: Das gefundene Schlüsselwort - Grün: Der Datenbereich - Blau: Der extrahierte Wert
9.5 Datenquelle Dokumententext - Bestimmung: Text der Seite(n)
Bei dieser Bestimmung wird der gesamte Text einer oder mehrerer Seiten als Basis verwendet.
9.5.1 Datenermittlung (Seitentext)
9.5.1.1 Seite bestimmen
| Option |
Beschreibung |
| Keine Bestimmung notwendig |
Verwendet den Text aller Seiten |
| Seitennummer angeben |
Verwendet den Text der Seite mit der angegebenen Seitennummer |
| Seite mit Schlüsselwort finden |
Verwendet den Text der Seite mit dem angegebenen Schlüsselwort |
9.5.1.2 Kombination mit Bereinigung
Die Datenermittlung mittels Seitentext liefert oft viel Text. Verwenden Sie die Bereinigung, um den relevanten Teil zu extrahieren.
9.6 Datentypen
9.6.1 Text
Zur Extrahierung, Verifizierung und Formatierung von Text
Für die meisten Fälle ist der Datentyp Text die richtige Wahl.
9.6.2 Datum
Zur Extrahierung und Verifizierung eines Datums
Beim Datentyp Datum werden automatisch alle Datumsangaben im Text ausgewertet. Wenn Sie kein Schlüsselwort angeben, wird das erste gefundene Datum verwendet. Bei Verwendung dieses Datentyps stehen bei der Verwendung des Platzhalters für den Pfad oder Dateinamen alle Datumsbestandteile separat zur Verfügung. Sie können beispielsweise nur das vierstellige Jahr und den Monatsnamen verwenden.
9.6.2 Zahl
Zur Extrahierung und Verifizierung einer Zahl
9.6.1 Einfache Abfrage
Bei Abfragen wird ein Wert basierend auf Bedingungen ermittelt.
Definiert Bedingungen und zugehörige Rückgabewerte:
Dokumenttext enthält: "X<ODER>Y<ODER>Z", dann verwende als Ergebnis "Lieferschein", sonst ""
9.6.2 Abfrage (mit Liste)
Sie können mit dem Datentyp “Abfrage (mit Liste)” nach dem Vorkommen eines Begriffs suchen und den zugeordneten Wert als Ergebnis verwenden, z.B. eine E-Mail-Adresse oder einen Ordnernamen.
Listenformat: Suchbegriff und Ergebniswert werden durch Semikolon getrennt.
Beispiel 1: E-Mail-Adressen anhand von Kundennummern zuordnen:
Kundennummer : 19006;x@y.de
Kundennummer : 1900;a@b.de
Kundennummer : 18765;c@d.de
Enthält das PDF “Kundennummer : 19006”, wird “x@y.de” als Ergebnis verwendet.
Beispiel 2: IBAN suchen, Firmenname als Ergebnis verwenden:
DE02120300000000202051<ODER>DE02 1203 0000 0000 2020 51;Mustermann GmbH
DE02500105170137075030;Musterfrau GmbH
Hier wird die IBAN (mit oder ohne Leerzeichen) gesucht und der zugehörige Firmenname zurückgegeben.
Extrahiert Werte aus PDF-Formularfeldern.
9.7.1 Feldauswahl
Zeigt alle im PDF vorhandenen Formularfelder an:
| Feldtyp |
Beschreibung |
| TextBox |
Texteingabefeld |
| CheckBox |
Auswahlfeld (Ja/Nein) |
| RadioButton |
Optionsfeld |
| ComboBox |
Dropdown-Liste |
| ListBox |
Auswahlliste |
Wählen Sie das Formularfeld nach seinem Namen aus. Der Name wird in den PDF-Formulareinstellungen definiert.
9.8 Bereinigung
Die Bereinigung ermöglicht die Vorverarbeitung des extrahierten Rohwerts.
9.8.1 Verfügbare Bereinigungsaufgaben
Ersetzen-Operationen
| Aufgabe |
Beschreibung |
| Text ersetzen |
Ersetzt einen Text durch einen anderen |
| Text vor Marker ersetzen |
Ersetzt alles vor einem Marker |
| Text hinter Marker ersetzen |
Ersetzt alles nach einem Marker |
| Regex-Ergebnis ersetzen |
Ersetzt Regex-Treffer |
| Zeilenumbrüche ersetzen |
Ersetzt Zeilenumbrüche durch Text |
| Mit Excel-Datei ersetzen |
Ersetzt basierend auf Excel-Mapping |
Einfügen-Operationen
| Aufgabe |
Beschreibung |
| Vor Marker einfügen |
Fügt Text vor einem Marker ein |
| Hinter Marker einfügen |
Fügt Text nach einem Marker ein |
| An Position einfügen |
Fügt Text an einer bestimmten Position ein |
Entfernen-Operationen
| Aufgabe |
Beschreibung |
| Text entfernen |
Entfernt einen bestimmten Text |
| Text vor Marker entfernen |
Entfernt alles vor einem Marker |
| Erste/Letzte Zeichen entfernen |
Entfernt X Zeichen am Anfang/Ende |
| Regex-Ergebnis entfernen |
Entfernt Regex-Treffer |
| Leerzeilen entfernen |
Entfernt alle Leerzeilen |
| Zeilen mit Regex entfernen |
Entfernt Zeilen, die einem Muster entsprechen |
Zeilen-Operationen
| Aufgabe |
Beschreibung |
| Zeile X extrahieren |
Extrahiert nur eine bestimmte Zeile |
| Zeile X verschieben |
Verschiebt eine Zeile an eine andere Position |
| Zeilen mit Text verschieben |
Verschiebt Zeilen, die bestimmten Text enthalten |
9.8.2 Reihenfolge der Bereinigung
Mehrere Bereinigungsaufgaben werden in der definierten Reihenfolge ausgeführt. Verwenden Sie die Pfeiltasten, um die Reihenfolge anzupassen.
9.9 Verifikation: Text
Textverifikationen prüfen den extrahierten Wert auf bestimmte Bedingungen.
9.9.1 Verfügbare Prüfungen
| Prüfung |
Beschreibung |
| Text ist gleich |
Exakte Übereinstimmung |
| Text ist nicht gleich |
Keine Übereinstimmung |
| Text enthält |
Enthält den Suchbegriff |
| Text enthält nicht |
Enthält den Suchbegriff nicht |
| Text beginnt mit |
Startet mit dem Suchbegriff |
| Text endet mit |
Endet mit dem Suchbegriff |
| Text entspricht Regex |
Entspricht dem regulären Ausdruck |
| Text entspricht nicht Regex |
Entspricht nicht dem Ausdruck |
| Extrahierter Text ist leer |
Kein Wert extrahiert |
| Anzahl Zeichen |
Prüft die Textlänge |
| Anzahl Zeilen |
Prüft die Zeilenanzahl |
9.9.2 Zeichenverifikation
Prüft einzelne Zeichen an bestimmten Positionen:
| Prüfung |
Beschreibung |
| Ist Ziffer |
Zeichen ist 0-9 |
| Ist Buchstabe |
Zeichen ist A-Z oder a-z |
| Ist Großbuchstabe |
Zeichen ist A-Z |
| Ist Kleinbuchstabe |
Zeichen ist a-z |
| Ist alphanumerisch |
Zeichen ist Buchstabe oder Ziffer |
| Entspricht Regex |
Zeichen entspricht einem Muster |
9.10 Verifikation: Datum
Datumsverifikationen prüfen, ob der extrahierte Wert ein gültiges Datum ist.
9.10.1 Verfügbare Prüfungen
| Prüfung |
Beschreibung |
| Datum ist gültig |
Wert ist ein erkennbares Datum |
| Datum liegt zwischen |
Datum liegt im angegebenen Zeitraum |
Das System erkennt automatisch verschiedene Datumsformate: - 01.12.2024 (deutsch) - 12/01/2024 (amerikanisch) - 2024-12-01 (ISO) - 1. Dezember 2024 (mit Monatsname)
9.11 Verifikation: Zahl
Zahlenverifikationen prüfen numerische Werte.
9.11.1 Verfügbare Prüfungen
| Prüfung |
Beschreibung |
| Zahl ist gültig |
Wert ist eine erkennbare Zahl |
| Zahl liegt zwischen |
Wert liegt im Bereich |
Erkannte Formate: - 1234 (ganzzahlig) - 1.234,56 (deutsch) - 1,234.56 (englisch) - -123,45 (negativ)
9.12 Verifikation: Abfrage
Abfrageverifikationen prüfen Werte basierend auf Bedingungen.
9.12.1 Verfügbare Prüfungen
| Prüfung |
Beschreibung |
| Abfrage liefert Ergebnis |
Die Abfrage gibt einen Wert zurück |
Die Formatierung ermöglicht die Nachbearbeitung des verifizierten Werts. Der wesentliche Unterschied zur Bereinigung ist, dass hier bei Ersetzungen das Suchwort vorkommen muss.
9.14 Platzhalter verwenden
Extrahierte Werte können in vielen Kontexten als Platzhalter verwendet werden.
9.14.1 Platzhalter-Syntax
| Syntax |
Beschreibung |
<Regelname> |
Einfacher Platzhalter |
<RuleId:1(Regelname)> |
Vollständige Syntax mit ID |
<Regelname{DatePart}> |
Datumsteil extrahieren |
9.14.2 Datumsteile
| DatePart |
Beschreibung |
Beispiel |
Year4 |
Vierstelliges Jahr |
2024 |
Year2 |
Zweistelliges Jahr |
24 |
Month |
Monat (zweistellig) |
12 |
MonthName |
Monatsname |
Dezember |
MonthNameAbbreviated |
Monatsname kurz |
Dez |
Day |
Tag (zweistellig) |
15 |
Beispiel: <Rechnungsdatum{Year4}>-<Rechnungsdatum{Month}> ergibt “2024-12”
9.14.3 Fallback-Regeln
Wenn mehrere Regeln denselben Namen haben, wird die erste erfolgreiche Regel verwendet. Dies ermöglicht Fallback-Werte:
- Regel “Datum” - Versucht Extraktion aus Dokumenttext
- Regel “Datum” - Falls fehlgeschlagen: Verwendet Dateidatum