AI Smart Redact: Pdftools bietet echte Schwärzung für PDF-Dokumente
AI Smart Redact kombiniert KI-basierte Erkennung mit Human-in-the-Loop-Überprüfungen. Sensible Informationen werden vollständig und rückstandslos entfernt, sodass die Dokumente für den Einsatz mit großen Sprachmodellen (LLMs) und andere Zwecke bereit sind.
Schneller und zuverlässiger dank KI und „Human-in-the-Loop“
AI Smart Redact hebt sich von der Konkurrenz ab, indem es die Geschwindigkeit der KI-Erkennung mit der Zuverlässigkeit menschlicher Entscheidungen verbindet und so einen schnellen, gründlichen und sicheren Prozess für die groß angelegte Schwärzung personenbezogener Daten (PII) in PDF-Dateien schafft.
Die Erkennungs-Engine zeigt potenziell sensible Elemente an. Der autorisierte Prüfer muss dann lediglich die bereits strukturierten Vorschläge für die Schwärzung bewerten und über den Pdftools Viewer – eine vertraute Benutzeroberfläche – ausdrücklich genehmigen, was entfernt werden soll. Über die Symbolleiste können Prüfer zudem manuell weitere Elemente zur Schwärzung markieren.
Sobald die Option zur Schwärzung ausgewählt wurde, entfernt AI Smart Redact alle verbleibenden Daten vollständig und erstellt ein vollständig bereinigtes Ausgabedokument, das anschließend heruntergeladen oder über eine API bereitgestellt werden kann.
Die vorgeschriebene Human-in-the-Loop-Überprüfung gewährleistet stets eine klare Verantwortlichkeit und die Einhaltung der Vorschriften.
Keine generative KI, keine Halluzinationen
Das in AI Smart Redact verwendete KI-Modell ist eine Kombination aus einem standardmäßigen stochastischen KI-Modell und proprietären deterministischen Regeln, die von unserem Team entwickelt wurden. Wir verwenden ein kompaktes NER-Modell (Named Entity Recognition), bei dem es sich um ein nicht-generatives KI-Modell handelt, das kein Risiko von Halluzinationen birgt und somit für kontrollierte Prozesse im Umgang mit sensiblen Informationen wesentlich sicherer ist.
Al allein reicht jedoch nicht aus. Neuronale Modelle können zwar Muster erkennen, aber keine Formate validieren. Daher lässt sich zusätzlich zum NER-Modell eine deterministische Erkennung mithilfe regulärer Ausdrücke (Regex) konfigurieren. Kunden können die Engine durch die Konfiguration der Erkennungsparameter an ihre jeweilige Fachdomäne anpassen. Die Kombination von KI mit deterministischer Validierung führt zu weniger Fehlalarmen.
AI Smart Schwärzung erreicht einen F1-Wert von bis zu 98 %, wenn es anhand des nvidia/Nemotron-PII-Datensatzes mit 50.000 Beispielen bewertet wird. Darüber hinaus steigert der hybride Ansatz die Präzision um fast 10 Prozentpunkte im Vergleich zu einem reinen GLiNER-Ansatz bei denselben 17 Klassen.
Erkennung anpassen, ohne das Modell neu zu trainieren
AI Smart Schwärzung verfügt über 36 integrierte Entitätstypen. 32 davon sind musterbasiert, wie beispielsweise E-Mail-Adressen, Kreditkartennummern, alphanumerische Codes usw. Hinzu kommen vier semantische Typen: Person, Organisation, physische Adresse und Benutzername.
Fügen Sie bestimmte Schlüsselwörter hinzu, die zur Schwärzung markiert werden sollen – oder die niemals zur Schwärzung markiert werden sollen –, und ändern oder ergänzen Sie die Erkennungssprachen. AI Smart Redact unterstützt derzeit Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch und Niederländisch.
Eine weitere Anpassung ist durch Hinzufügen von Entitätstypen möglich. Dies ist ohne erneutes Trainieren des Modells möglich, da die semantische Engine Informationen wie „Nationalität“ analysieren und Angaben wie „Schweizer“ oder „Amerikaner“ zur Schwärzung markieren kann.

Es ist absolut unmöglich, die Schwärzungen zu entfernen
Viele Tools, die vorgeben, PDFs zu schwärzen, führen eine Maskierung der sensiblen Elemente durch, indem sie sie mit einem schwarzen Kasten überdecken. Oder sie entfernen nur die offensichtlich sichtbare oberste Ebene und lassen die vielen Arten von unsichtbaren Informationen in PDFs außer Acht. Sehr oft ist es möglich, diese Schwärzungen wieder rückgängig zu machen, und das ist für Unternehmen und Organisationen, die in stark regulierten Branchen tätig sind, kein ausreichend sicherer Prozess.
AI Smart Redact sorgt für eine echte Schwärzung, anstatt sensible Daten lediglich durch Maskierung zu überdecken, indem die PDF-Datei von Grund auf neu erstellt wird. Nur ausdrücklich identifizierte Elemente werden in das neue Dokument übernommen. Durch die Erstellung einer neuen, strukturell sauberen PDF-Datei stellen wir sicher, dass keine versteckten Textebenen, Metadaten oder wiederherstellbaren Inhalte zurückbleiben.
Aus Sicherheitsgründen selbst gehostet
AI Smart Redact wird mithilfe von Docker-Images vollständig selbst gehostet. Die On-Prem-Bereitstellung ist möglich, ebenso die Bereitstellung in einer isolierten Umgebung. Durch die Nutzung Ihrer eigenen Infrastruktur behalten Sie die volle Kontrolle und vermeiden so, dass sensible Dokumente an externe Cloud-Dienste gesendet werden.
Sie können „AI Smart Redact“ als eigenständige Lösung nutzen oder in einen bestehenden Workflow integrieren. Dank APIs und einer Option zum manuellen Hochladen sind Eingabe- und Ausgabeformate völlig unabhängig.
Anwendungsfälle für AI Smart Schwärzung
Die Fähigkeit, große Mengen an Dokumenten schnell und zuverlässig zu schwärzen, ist für viele Unternehmen in der Versicherungs- und Bankenbranche, im öffentlichen Sektor und in anderen Branchen wichtig, die im Tagesgeschäft mit sensiblen Informationen umgehen.
Versicherungsgesellschaften müssen häufig personenbezogene Daten aus internen Dokumenten entfernen, die an Dritte weitergegeben werden sollen. So könnte beispielsweise ein versicherter Kunde Informationen über den Stand eines Versicherungsfalls in Bezug auf einen seiner Mitarbeiter anfordern. Bevor jedoch die entsprechenden Dokumente weitergegeben werden, muss der Versicherer alle Informationen über diesen Mitarbeiter entfernen, die als sensibel und persönlich gelten.
Ein Lehrkrankenhaus kann alle personenbezogenen Daten aus Patientenakten entfernen oder diese sogar durch fiktive Patientennamen ersetzen, um Studierenden Schulungsmaterialien zur Verfügung zu stellen, die reale Fälle widerspiegeln, ohne die Privatsphäre der Patienten zu verletzen.
Und natürlich besteht einer der wichtigsten Anwendungsfälle für AI Smart Redact darin, Dokumente zu schwärzen, um sie für LLMs und RAG (Retrieval-Augmented Generation) vorzubereiten. Beim Training generativer KI ist es unerlässlich, zunächst sensible Informationen zu entfernen, um absolut sicherzustellen, dass keine davon in den Trainingsdatensatz gelangt.
Sind Sie bereit, die Schwärzung von Dokumenten auf die nächste Stufe zu heben?
Die Kosten für AI Smart Redact richten sich nach der Anzahl der Benutzerlizenzen sowie nach einem seitenbasierten Preis für die KI-Nutzung. Mit AI Smart Redact erhalten Sie außerdem uneingeschränkten Zugriff auf den Pdftools Viewer, der eine Vielzahl weiterer Funktionen bietet, mit denen Sie PDF-Dateien bearbeiten, mit Anmerkungen versehen und bearbeiten können.
Wenn Sie den Viewer bereits nutzen und „AI Smart Redact“ freischalten möchten, kontaktieren Sie bitte Ihren Kundenbetreuer, um eine Lizenz zu erhalten.
Testen Sie AI Smart Schwärzung jetzt mit einer Testlizenz
Schritt 1. Eine Testlizenz anfordern
Besuchen Sie das Pdftools-Portal und klicken Sie unter „AI Smart Swärzung“ auf die Schaltfläche „Produkt ansehen“, um einen Testlizenzschlüssel zu aktivieren.
Schritt 2. Klonen Sie das Beispiel-Repo
git clone https://github.com/pdf-tools/smart-redact-samples.git
cd smart-redact-samples/docker-compose/cpuSchritt 3. Umgebung konfigurieren
cp .env.example .envLegen Sie Ihren Lizenzschlüssel fest und generieren Sie zwei Geheimnisse; die Befehle zum Generieren der Geheimnisse finden Sie in den Kommentaren der Umgebungsdatei:
PDFTOOLS_LICENSE_KEY: Ihr in Schritt 1 generierter Testlizenzschlüssel
ENCRYPTION_KEY: Dateiverschlüsselungsschlüssel generieren
ORCHESTRATOR_JWT_SECRET: JWT-Signaturschlüssel generieren
Schritt 4. Umgebung konfigurieren
Dadurch werden die Images abgerufen und alle Container gestartet. Stelle sicher, dass Docker auf deinem Rechner installiert ist.
docker compose up -d
Schritt 5. Öffnen Sie die HiTL-App
Gehen Sie auf http://localhost:3000, melden Sie sich mit admin@example.com / Admin1234 an, laden Sie dann die Datei hoch, lassen Sie sie erkennen, überprüfen Sie sie und wenden Sie die Schwärzung an.
Ausführlichere Anweisungen finden Sie in unserer AI Smart Schwärzung-Readme-Datei auf GitHub.