PDFs und KI-KYC-Pipelines | Dokumenten-Normalisierung

Angenommen, Ihr Team evaluiert Anthropics KYC Screener, um das Parsing von Onboarding-Dokumenten und die Ausführung von Compliance-Regeln zu automatisieren. Ein gescanntes Dokument gelangt in die Pipeline — eines mit zweispaltigem Text. OCR liest den Text spaltenübergreifend, was zu fehlerhafter Ausgabe führt: Datumsangaben werden aus dem Kontext gerissen, Namen fragmentiert und mit Adressdaten vermischt. Die Pipeline meldet keine Fehler, das Dokument passiert die Eingangsprüfung, und die Probleme bleiben unbemerkt. Die Fehler tauchen erst wieder auf, wenn ein Compliance-Beauftragter den extrahierten Datensatz prüft und feststellt, dass die Werte nicht mit der Quelldatei übereinstimmen.

Beim KYC-Onboarding und der Dokumentenprüfung kann die Agentenschicht viele Automatisierungsprobleme lösen, aber der gesamte Workflow steht und fällt mit der Dokumentenschicht. Ohne vorgelagerte Dokumenten-Normalisierung, die die Probleme behebt, die PDFs in eine Pipeline einbringen können, erbt der gesamte Workflow jede strukturelle Instabilität der eingehenden Dokumente.

Warum (und wie) PDFs automatisierte Pipelines stören

Der Grund, warum PDFs beim Thema Maschinenlesbarkeit und Datenextraktion eine Herausforderung darstellen, liegt in ihrer Entstehungsgeschichte. PDFs wurden Anfang der 1990er Jahre mit dem Ziel entwickelt, ein Dokument mit universeller Darstellung zu schaffen — eines, das auf jedem Gerät identisch aussieht. Im Wesentlichen wurden PDFs als menschenzentriertes Dateiformat konzipiert, nicht als maschinenorientiertes. Die meisten Eigenheiten, die bei der Arbeit mit PDFs auftreten, gehen auf diese ursprüngliche Entscheidung zurück.

PDF-Probleme in automatisierten Workflows entstehen in der Regel aus drei Quellen:

Fehlende Normalisierung
Art und Formatierung des Textes
OCR

Fehlende Normalisierung

PDFs sind nicht nur menschenzentriert, sondern auch in ihrer internen wie externen Struktur sehr variabel. Bei KYC-Dokumenten kann ein einzelnes Kundendossier manuell gescannte Ausweisdokumente, maschinell erstellte Kontoauszüge und tabellenreiche Transaktionsnachweise enthalten. Jedes dieser Dokumente hat eine andere interne Struktur, die Pipeline muss jedoch alle verarbeiten.

Ein wesentlicher Faktor für Unterschiede in der internen Struktur ist, ob das PDF maschinell erstellt oder eingescannt wurde. Dasselbe Onboarding-Formular kann beispielsweise über zwei Kanäle eingehen: eines wurde digital ausgefüllt, das andere ausgedruckt, handschriftlich ausgefüllt und wieder eingescannt. Für einen menschlichen Prüfer sehen beide nahezu identisch aus. Für die Dokumenten-Pipeline sind es jedoch strukturell unterschiedliche Dokumente, und die gescannte Version hat ihre ursprünglichen Metadaten und ihre interne Struktur vollständig verloren.

Selbst bei digital erstellten Dateien variiert die interne Struktur je nachdem, wie sie erstellt wurden, wie viel Aufwand in eine kohärente Struktur und Metadaten geflossen ist, ob andere Dateien angehängt oder eingebettet sind usw. Genau deshalb ist Dokumenten-Normalisierung so wichtig: Inkonsistente interne Strukturen innerhalb eines Kundendossiers bedeuten, dass die Pipeline jedes Mal auf ein anderes Dokument trifft — und diese Variabilität lässt die Exception Queue (Ausnahmewarteschlange) anwachsen.

Wenn diese Fehler unbemerkt im Compliance-Datensatz landen, wird ein Prüfer bei der Überprüfung von KYC-Unterlagen gegen Quelldokumente die Abweichung finden. Folgendes kann passieren, wenn Dokumente ohne Dokumenten-Normalisierung verarbeitet werden:

Zufällige Zeilenumbrüche werden eingefügt: Das kann Feldwerte durcheinanderbringen und Wörter aufteilen: Ein Geburtsdatum wird auf zwei Zeilen verteilt und zu zwei unlesbaren Zeichenketten. Die Compliance-Rules-Engine findet keine Übereinstimmung in der Prüfdatenbank.
Zeilenumbrüche werden gelöscht: Wenn Zeilenumbrüche fehlen, werden Datenpunkte zusammengeführt und Text unleserlich: Name und Adresse eines Kunden landen plötzlich in derselben Zeile. Das Entitätsextraktionsmodell liest eine einzige unstrukturierte Zeichenkette, obwohl zwei separate Werte vorliegen sollten.
Zeichen fallen weg: Zeichen werden häufig weggelassen oder fälschlicherweise in Unicode konvertiert. Fällt eine Ziffer aus einem Identifikationscode heraus, schlägt die Dokumentenverifizierung ohne Fehlermeldung fehl — der Datensatz stimmt einfach nicht überein.
Bildbasierte Inhalte verschwinden: Wenn die Textextraktion bildbasierte Inhalte überspringt, wird ein Signaturblock oder ein Ausweisfoto, das in ein gescanntes Formular eingebettet ist, für die Pipeline unsichtbar. Das Dokument passiert die Eingangsprüfung, obwohl die Pipeline bestimmte Felder nie extrahiert hat.
Fehlerhafter Fremdtext wird eingebracht: Je nachdem, wie die Originaldatei erstellt wurde, kann sich versteckter fehlerhafter Fremdtext im Dokument befinden, der erst bei der Datenextraktion aus seiner verborgenen Ebene zutage tritt. Ein Compliance-Beauftragter markiert später einen Datensatz und findet extrahierten Text, der nicht mit dem Quelldokument übereinstimmt — ohne sauberen Audit-Trail, der zeigt, wo der Fehler in die Pipeline eingedrungen ist.

Pipelines ohne explizite Validierungsschritte haben keinen Mechanismus, um Extraktionsfehler zu erkennen, sodass fehlerhafte Dokumente ungehindert passieren. Wird ein Fehler früh erkannt und ist Exception-Handling vorhanden, werden fehlerhafte Dokumente eskaliert und erzeugen manuellen Prüfaufwand. In Fällen, in denen Exception-Handling nicht Teil des Workflows ist, gelangt der Fehler unbemerkt in den Compliance-Datensatz und bleibt unentdeckt, bis ein Prüfer ihn findet.

Menge und Formatierung von Text

Dokumente, die für den Kontext auf Bilder angewiesen sind, können wie beschrieben Probleme verursachen — aber auch bei textlastigen Dokumenten gibt es Fallstricke. Diese treten häufig auf bei:

Überschriften und Zwischenüberschriften, da das Modell sie nicht als strukturell bedeutsam für das Dokument erkennt
Text in Spalten oder an anderen Stellen (z. B. Fußnoten), bedingt durch OCR-Eigenheiten
Tabellen, deren Struktur nicht korrekt geparst wird und die zu unstrukturierten Daten werden
Formularen, die aus ähnlichen Gründen wie Tabellen Probleme verursachen können, insbesondere bei der Key-Value Pair Extraction (Schlüssel-Wert-Paar-Extraktion)

Im KYC-Kontext ist eine strukturierte Schlüssel-Wert-Extraktion besonders wichtig. Ohne sie müssen Nutzer oft eine unstrukturierte Menge an Datenpunkten und Labels manuell durchsuchen — ein häufiges Ergebnis, wenn ausgefüllte PDF-Formulare mit OCR oder anderen herkömmlichen Extraktionsmethoden verarbeitet werden. Strukturierte Schlüssel-Wert-Extraktion hingegen erkennt, dass 2026-03-25 ein Datum ist, und beschriftet es bei der Extraktion entsprechend — was es ermöglicht, auch andere Teile der Dokumenten-Pipeline zu automatisieren und zu optimieren.

OCR

OCR wird in vielen Dokumenten-Pipelines noch als erster Schritt eingesetzt und stößt häufig an ihre Grenzen, wenn Dokumente Formatierungsbesonderheiten aufweisen oder noch nicht normalisiert wurden. Bei einer Mischung aus strukturiertem und unstrukturiertem Text, Tabellen, Spalten usw. wird OCR wahrscheinlich Schwierigkeiten haben und beim Verarbeiten der Informationen fehlerhaften Text erzeugen. Dieser fehlerhafte Text wird dann in eine verborgene Ebene des PDFs eingefügt und kann bei der späteren Extraktion Probleme im gesamten nachgelagerten Dokumenten-Workflow verursachen.

PDFs für den KYC Screener vorbereiten

Um die Leistung eines KI-KYC-Screeners zu verbessern und seinen zuverlässigen Betrieb sicherzustellen, brauchen Sie den richtigen vorgelagerten Dokumenten-Workflow. So sieht das aus:

Dokumente normalisieren

Dokumenten-Normalisierung bedeutet kurz gesagt, alle eingehenden Dokumente so zu verarbeiten, dass sie dieselbe oder eine sehr ähnliche interne Struktur erhalten. Wenn von Dokument zu Dokument interne Konsistenz besteht, arbeiten auch automatisierte Agenten beim Umgang mit diesen Dokumenten konsistenter. Fehler werden reduziert, und die Datenextraktion wird sowohl genauer als auch ressourcenschonender.

Hier ein kurzer Überblick, wie Dokumenten-Normalisierung typischerweise mit unserem Conversion Service aussieht:

Analysieren: Der Conversion Service prüft, ob das Dokument zu den 62 unterstützten Dateitypen gehört. Nicht unterstützte Dateitypen brechen die Konvertierung ab, bevor eine weitere Verarbeitung stattfindet. Bei Bedarf kann festgelegt werden, welche unterstützten Dateitypen verarbeitet werden sollen und was mit den übrigen geschieht (Dokumente ablehnen, durchleiten usw.).
Validieren und reparieren / In PDF konvertieren: Handelt es sich beim hochgeladenen Dokument um ein PDF, wird es auf strukturelle Integrität geprüft; erkannte Dateibeschädigungen lösen einen automatischen Reparaturversuch aus. Handelt es sich nicht um ein PDF, wird es zunächst in ein PDF konvertiert, bevor die weitere Verarbeitung stattfindet, damit unser SDK den Rest übernehmen kann.
OCR: Weitere Details dazu im nächsten Abschnitt.
Optimieren: Redundante Daten werden entfernt, Bilder komprimiert, Anmerkungen gerastert sowie Schriftarten zusammengeführt und als Subset eingebettet — das normalisiert das PDF und minimiert seine Dateigröße.
In PDF/A konvertieren: Hier findet die strukturelle Normalisierung statt — alle eingehenden Dokumente werden auf den gewünschten PDF/A-Standard gebracht (PDF/A-1, -2, -3 oder -4). Metadaten werden vereinheitlicht, externe Abhängigkeiten entfernt, nicht konforme Anmerkungen gelöscht usw.

Nach diesem Workflow sind die Dokumente strukturell einheitlich und sollten sich beim Durchlaufen des weiteren Dokumentenverarbeitungs-Workflows (einschließlich der Interaktion mit dem KYC Screener) gleich verhalten. Mehr zur Dokumenten-Normalisierung und wie Sie Ihren Normalisierungs-Workflow stärken, erfahren Sie hier.

OCR als Teil der Normalisierung einsetzen

Um die genannten OCR-Probleme mit fehlerhaftem oder falsch erkanntem Text zu vermeiden, erfolgt OCR im Conversion-Service-Workflow nach "Validieren und reparieren" und umfasst zwei SDK-Operationen:

Analysieren: Vor der Texterkennung wird eine Bildvorverarbeitung durchgeführt (Begradigung, Binarisierung, Rauschunterdrückung und Auflösungskorrektur). Dabei werden Seiten und Bereiche des Dokuments mit bildbasiertem Text identifiziert, und OCR wird nur auf den Seiten ausgeführt, die es erfordern.
Synthetisieren: Die OCR-Engine verarbeitet die identifizierten Seiten und Bereiche und bettet den erkannten Text layoutkonform zurück in das PDF ein. Damit werden mögliche Probleme mit verborgenen Textebenen oder in Bilder eingebettetem Text behoben.

XML-Ausgabe für nachgelagerte Agent-Pipelines

Die Konvertierung von PDFs in XML ist eine der wirksamsten Methoden, um eine maschinenlesbare Version eines Dokuments zu erstellen. XML (Extensible Markup Language) ist eine Art maschinelle Lingua franca — entwickelt, um Dokumente in einem Format zu kodieren, das sowohl für Menschen als auch für Maschinen lesbar ist.

Im weiteren Verlauf unseres Conversion-Service-Workflow-Beispiels besteht nach der Dokumentenverarbeitung die Möglichkeit, die Ausgabe in eine XML-Datei zu exportieren, die den erkannten Text, wortgenaue Positionsdaten und OCR-Konfidenzwerte für jedes erkannte Zeichen enthält. Das ist ideal für Pipelines, die strukturierte Daten benötigen, und liefert einer nachgelagerten Agent-Pipeline stabilen, direkt referenzierbaren Text — statt einer visuellen Annäherung an die Daten, wie sie ein PDF bietet. Für eine KYC-Rules-Engine bedeutet das den Unterschied zwischen zuverlässigem Feldwertlesen und dem Erben aller Daten (oder Fehler), die der PDF-Renderer produziert hat.

Institutionen, die unter die DSGVO fallen, sollten beachten, dass die hier beschriebene Pipeline-Architektur nur dann konform bleibt, wenn die Dokumentenverarbeitung innerhalb des eigenen Datenperimeters erfolgt. Das Senden von KYC-Dokumenten mit personenbezogenen Daten an einen externen Dienst erzeugt ein Datenresidenzrisiko, das Organisationen außerhalb der DSGVO-Konformität bringen würde. Der Conversion Service ist selbst gehostet — die Dokumentendaten verbleiben bei seiner Verwendung in Ihrer eigenen Infrastruktur.

Ihren Dokumenten-Workflow zukunftssicher machen

Je leistungsfähiger und tief integrierter KI-Agenten in alle Arbeitsbereiche werden, desto wichtiger ist es, sich bewusst zu machen, dass ihre Funktionsfähigkeit vom vorgelagerten Dokumenten-Workflow abhängt. Dokumenten-Normalisierung ist dabei ein entscheidender Baustein — ohne sie bleibt Ihr Automatisierungspotenzial begrenzt.

Der hier beschriebene Workflow verbessert dabei nicht nur die Automatisierungsmöglichkeiten, sondern auch künftige Audits. Eine deterministische, normalisierte Pipeline liefert bessere Endergebnisse (weniger Fehler, die ein Compliance-Beauftragter überhaupt erst finden kann) und protokolliert dabei jeden Schritt. Tritt doch ein Fehler auf, gibt es einen sauberen Audit-Trail, der lückenlos nachverfolgt werden kann, wo, wie und warum er in die Dokumenten-Pipeline eingedrungen ist — damit er vor künftigen Prüfungen behoben werden kann.

Legen Sie noch heute mit unserem Conversion Service das notwendige Fundament, um Ihre Dokumenten-Normalisierungsprozesse zu verbessern und zu optimieren. Er vereint Normalisierung, OCR, Optimierung und PDF/A-Konvertierung in einer deterministischen Pipeline.

Ihr KYC-Agent übernimmt alle vorgelagerten Dokumentenprobleme