Die verborgenen Ebenen der PDF-Schwärzung

Beim Schwärzen von Dokumenten denken Sie vermutlich an Seiten mit schwarzen Balken. Doch das ist nicht dasselbe wie echtes Schwärzen. Sie müssen vertrauliche Inhalte vollständig aus jeder Quelle löschen, also aus OCR-Ebenen, Metadaten und anderen Lecks. Es reicht nicht, sie nur für das menschliche Auge zu verbergen. Genau diese Falle stellte sich 2021, als die Europäische Kommission ihren AstraZeneca-Impfstoffvertrag veröffentlichte. Die Behörde schwärzte den Haupttext erfolgreich. Leser brauchten nur die Lesezeichen des Dokuments anzusehen, um die eigentlich geschwärzten sensiblen Daten klar zu erkennen.

Kombinieren Sie KI-Automatisierung mit menschlicher Kontrolle, um einen modernen Schwärzungs-Workflow zu schaffen. So arbeiten Sie effizient und sicher.

Die verborgenen Ebenen der Schwärzung

Angenommen, Sie wollten den Text auf einer Webseite verbergen. Sie stellen die Schriftgröße auf minimal ein und passen die Textfarbe exakt an den Hintergrund an. So wirkt der Text zunächst unsichtbar. Doch wer den Quellcode öffnet, liest ihn ohne Mühe. Entfernen Sie Daten vollständig aus der Seite, indem Sie sie aus dem Code löschen. Das Gleiche gilt für PDFs – unsichtbare Informationen entfernen ist entscheidend, um Dokumente vollständig zu schwärzen.

Um zu verstehen, warum eine vollständige Schwärzung schwierig sein kann, muss man PDFs als Dateiformat verstehen. PDFs entstanden Anfang der 1990er Jahre mit einem Ziel: Dokumente zu erstellen, die auf jedem Gerät gleich aussehen, unabhängig von Bildschirmgröße, Betriebssystem oder anderer Konfiguration. Öffnen zwei Personen eine PDF-Datei, sehen sie dieselben Informationen, die gleich formatiert sind – von ausfüllbaren Feldern bis hin zu Schriftart und -größe.

Aus diesem Fokus auf ein einheitliches Erscheinungsbild ergeben sich viele Eigenheiten des Dateiformats. PDFs mögen wie textlastige Dokumente aussehen, doch sie funktionieren wie ein Stapel unabhängiger Inhaltsschichten, darunter Text, Vektorgrafiken, Bilder, Metadaten, Anmerkungen und mehr. Alle diese Ebenen können sensible Daten enthalten, oft an unerwarteten Stellen. Ein PDF kann mehrere Schriftarten speichern. Jede Schriftart besteht aus Glyphen – also aus der konkreten Darstellung der Buchstaben. Arial, Times New Roman und Comic Sans besitzen jeweils eigene Glyphen für jeden Buchstaben oder jedes Symbol. Bleiben die eingebetteten Schriftartenwörterbücher erhalten, verraten sie die Breite einzelner Glyphen in bestimmten Schriftarten. Ein Angreifer kann aus dieser Information und der Breite der Schwärzung ableiten, welches Wort oder welche Phrase verborgen ist.

Optimierte Schriften enthalten nur die Zeichen, die das Dokument tatsächlich nutzt. Jeder, der das Schriftwörterbuch öffnet, sieht diese Zeichen sofort. Angreifer können auch diese Information nutzen, um ein geschwärztes Wort zu rekonstruieren, vor allem, wenn sie sie mit den Breiten der Glyphen kombinieren. Diese Schwachstellen entstehen allein durch eingebettete Schriftinformationen – ein Aspekt, den kaum jemand als Sicherheitsrisiko einstuft.

Löschen Sie alle Hinweise auf geschwärzte Informationen sowie alles, womit sich der ursprüngliche Inhalt rekonstruieren ließe. Dazu gehören:

Schriftartenwörterbücher
Eingebettete Metadaten
Lesezeichen und Anmerkungen
Über OCR hinzugefügte Textebenen
Inhaltsströme
Alle anderen versteckten Ebenen und/oder Artefakte

Häufige Fehler bei der PDF-Schwärzung

Maskierung ohne Entfernen

Dies ist der häufigste Fehler. Benutzer zeichnen in einem PDF-Editor einen schwarzen Kasten direkt über den Text oder markieren den sensiblen Text schwarz, um ihn zu schwärzen. Wie bereits erwähnt, lässt sich dies jedoch leicht umgehen. Der Leser kann den »geschwärzten« Text in der Regel einfach markieren/kopieren und in ein neues Dokument einfügen, um ihn zu lesen.

Die Probleme reichen jedoch tiefer. Selbst wenn der sichtbare Text im Dokument vollständig fehlt und sich nicht kopieren lässt, können Angreifer ihn trotzdem wiederherstellen. Schriftartenwörterbücher sind nur ein Beispiel, weitere verborgene Datenquellen folgen gleich. Schwärzen Sie erfolgreich, indem Sie das Problem strukturell angehen. Ändern Sie die in der Datei enthaltenen Daten umfassend, statt Informationen nur vor menschlichen Augen zu verbergen.

Verstehen Sie die Struktur und Funktionsweise von PDF-Dateien tiefgreifend, um sicher zu schwärzen. Erstellen Sie eine neue PDF-Datei, die nur die gewünschten Informationen enthält.

Nicht entfernte unsichtbare Daten

Die Probleme bei der Schwärzung des AstraZeneca-Impfstoffvertrags durch die Europäische Kommission zeigen das. Lesezeichen sind jedoch nicht der einzige Ort, an dem sich sensible Informationen verbergen. Betrachten wir noch einmal die PDF-Struktur, insbesondere die Inhaltsströme.

Der Inhalt eines PDF liegt in komprimierten Binärströmen vor, nicht in Klartext. Diese Inhaltsströme enthalten Anweisungen, die jedes Element einer Seite beschreiben: Glyphen (den Text, den wir lesen) sowie Bilder, Grafiken und Tabellen. Möchten Sie einen Inhaltsstrom bearbeiten, müssen Sie ihn zuerst dekodieren. Die Binärarchitektur ist für die meisten Entwickler/Ingenieure jedoch nicht vertraut. Erstelle daher lieber sofort ein neues PDF, in dem alle sensiblen Inhalte dauerhaft entfernt sind, statt ein bestehendes Dokument nachträglich zu bearbeiten.

Weitere Stellen, an denen geschwärzte Informationen versteckt sein können, sind:

Kommentare und Anmerkungen, die Verweise auf geschwärzte Inhalte enthalten können
Revisionsverlauf, da die Nachverfolgung von Änderungen möglicherweise gelöschte Inhalte offenlegen kann
Dokument-Metadaten, einschließlich des Autorennamens, des Erstellungsdatums, des Datums der letzten Änderung usw.
Eingebettete Bilder und deren Metadaten, denn Beschreibungstext und Dateiname können identifizierende Angaben enthaltenEingebettete oder angehängte Dateien, weil sich ein Excel-Anhang leicht verbergen lässt, ohne ihn zu löschenDie Dokumenteigenschaften, da sie unter anderem die Schriftarten-Wörterbücher speichern

Probleme durch OCR

Die optische Zeichenerkennung (OCR) digitalisiert Text aus gedruckten Dokumenten. Viele Organisationen setzen sie ein, um Papiervorlagen zu scannen und in PDFs umzuwandeln. OCR ist eine Möglichkeit, Text aus einem gescannten PDF zu extrahieren, verursacht aber eigene Schwärzungsfehler.

OCR fügt hinter der sichtbaren Ebene (dem Bild des gescannten Dokuments) eine versteckte Textebene ein. Diese Ebene lässt sich auswählen, kopieren/einfügen und durchsuchen. Sie stimmt optisch nicht immer perfekt mit dem Bild des Textes überein. Wenn Sie jemals Text in einem gescannten Dokument markiert haben und das Auswahlfeld leicht versetzt zum Wort erschien, liegt das an einer Eigenart der OCR.

Genau diese unsichtbare Textebene verursacht Probleme bei Schwärzungs-Workflows. Erfahrene Personen können die gesamte Textebene aus der PDF-Datei extrahieren. Selbst weniger versierte Personen kopieren und fügen den »geschwärzten« Text mit einem einfachen Griff ein, wenn das Dokument erst nach dem OCR-Prozess geschwärzt wurde. Für eine sichere Schwärzung muss diese unsichtbare Textebene vollständig aus der PDF-Datei entfernt werden.

Schwärzung und Compliance

In Branchen mit Compliance-Vorgaben führen unsichere Schwärzungen zu hohen Geldstrafen und behördlichen Sanktionen. Ein aktueller IBM-Bericht zeigt, dass Angreifer bei Datenverletzungen vor allem personenbezogene Kundendaten steuern. Dies unterstreicht, wie wichtig es ist, solche Informationen sicher aufzubewahren.

Weltweit geltende Datenschutz-Goldstandards wie DSGVO, HIPAA, LGPD, PDPB und CCPA verlangen eine irreversible Löschung. Verstöße kosten Unternehmen viel Geld. Die DSGVO etwa sieht bis zu 4 % des weltweiten Jahresumsatzes als Strafe vor. Unternehmen in regulierten Branchen brauchen vorhersehbare Prozesse, detaillierte Prüfprotokolle und nachweisbare Löschungen.

Wie sieht also der ideale Workflow für die Schwärzung aus?

Erstellen eines sicheren Workflows für die Schwärzung

Manuell Dokumente zu schwärzen ist mühsam, ineffizient und fehleranfällig. Sich ausschließlich auf KI-basierte Schwärzung zu verlassen birgt ebenfalls Risiken, egal wie gut Ihre KI trainiert ist. Schwärzen Sie unzureichend, droht die Offenlegung personenbezogener Daten. Schwärzen Sie zu viel, entstehen andere Probleme. Ende 2025 aktualisierte der Oberste Gerichtshof von Missouri seine Vorschriften. Er beschränkte die Schwärzung auf vertrauliche Informationen und verlangte für jede weitere Schwärzung einen »triftigen Grund«. Damit reagierte das Gericht darauf, dass Anwält*innen Gerichtsdokumente mit automatisierten Tools übermäßig schwärzten. Ähnliche Gesetze könnten bald folgen. Bis dahin verursacht übermäßiges Schwärzen zusätzlichen Verwaltungsaufwand, weil Mitarbeitende ihre Schritte zurückverfolgen müssen, um Informationen zu ersetzen, die sie unnötig geschwärzt haben.

Ein Praxisbeispiel zeigt das: Einer unserer Versicherungskunden hat eine interne KI-Engine für seinen Know-Your-Customer-Prozess (KYC) entwickelt. Das Unternehmen wollte die KI-Engine anhand früherer Fälle trainieren, ohne das Training mit echten Kundendaten zu beeinflussen. Ein Dossier kann sowohl E-Mails als auch digitalisierte, strukturierte Notizen aus Telefonaten enthalten. Doch sowohl personenbezogene Daten als auch jegliche (direkte oder indirekte) Verweise auf andere Unfälle müssen geschwärzt werden. Durch das Schwärzen all dieser Informationen erstellt das Unternehmen für seinen Bereich relevante Dokumente, ohne personenbezogene Daten an die KI-Engine weiterzugeben oder sie mit irrelevanten Details zu beeinflussen.

Der beste Weg ist ein Workflow, der Automatisierung nutzt, aber eine menschliche Überprüfung vor der finalen Schwärzung verlangt und anschließend das geschwärzte Dokument gründlich prüft. Dieser Ansatz bietet im Vergleich zu einer vollständig automatisierten oder vollständig manuellen Schwärzung mehrere Vorteile:

Schwärzen Sie effizienter als bei reiner Handarbeit.Erhalten Sie reproduzierbare Ergebnisse und minimieren Sie Fehler.Dokumentieren Sie den Prozess, wie es viele Aufsichtsbehörden verlangen (zum Beispiel fordert das Information Commissioner’s Office nachvollziehbare Aufzeichnungen zu jedem Schwärzungsschritt).

Endgültige Dokumente, die behördlichen Prüfungen und dem Versuch böswilliger Akteure, geschwärzte Daten zu extrahieren, standhalten.

All dies sollte das primäre Ziel der Schwärzung berücksichtigen: sensible Informationen vollständig zu beseitigen, statt sie nur zu verbergen.

Die genannten ICO-Richtlinien betonen außerdem die Bedeutung von Schulungen und Überwachung, um die Einhaltung dieser Workflows zu sichern. Ähnliche Vorgaben sind in der Compliance-Welt üblich. Alle Mitarbeitenden, die schwärzen, sollen sich spezifisch schulen lassen, wie sie KI- oder automatisierte Tools bedienen und worauf sie achten müssen. Namen lassen sich jedoch oft nicht zuverlässig automatisch schwärzen, weil es keine Mustererkennung gibt, die immer für jeden Namen funktioniert. Für Sozialversicherungsnummern existiert eine solche Regel. Auch nach der Schulung sollten Sie die Arbeit regelmäßig stichprobenartig überprüfen, um zu verhindern, dass Dokumente über- oder untergeschwärzt werden.

Beispiel-Workflow mit AI Smart Redact:

Laden Sie das PDF hoch, das Sie schwärzen möchten. Die Erkennungs-Engine analysiert es sofort.
Nach der Analyse erhalten Sie Vorschläge, welche Informationen Sie schwärzen sollten. Die Vorschläge enthalten eine Konfidenz- und eine Risikorate.
Entfernen oder behalten Sie die Vorschläge bei.
Fügen Sie manuell weitere Schwärzungen hinzu und speichern Sie anschließend das geschwärzte PDF.

Am Ende kopiert das Tool die sichtbaren, nicht geschwärzten Informationen in ein neues PDF, ohne Metadaten oder andere versteckte Daten. Es dupliziert also nur die sichtbaren Daten, anstatt vorhandene zu verbergen. So stellt der Ansatz sicher, dass Metadaten oder versteckte Elemente keine ungeschwärzten Informationen enthalten.