Scan-Server für digitale Langzeitarchivierung

Heutzutage wollen die meisten Unternehmen keine Zeit und kein Geld mehr damit verschwenden, fensterlose Räume mit Papierakten zu füllen oder Mitarbeiter mit der Suche nach Papierdokumenten zu beauftragen. Immer mehr Manager erkennen die Vorteile der digitalen Archivierung, und das nicht nur in großen Unternehmen. Aber wie sollte sie umgesetzt werden? Die einen sagen, man solle es den Herstellern der Scangeräte überlassen, die anderen meinen, es brauche mehr als das.

Ist ein Scanner ausreichend?

In den meisten Unternehmen ist das Scannen von Papierdokumenten zu einer Routineaufgabe bei der Bearbeitung des Posteingangs geworden. Je nach Art und Umfang der eingehenden Papierdokumente werden dafür Multifunktionsdrucker (MFP) oder Hochleistungsscanner eingesetzt.

In den meisten Fällen werden die gescannten Bilder als Schwarz-Weiß-TIFF-Dateien erstellt, dem typischen Format für Faxgeräte. In besonderen Fällen, z. B. beim Scannen von Schecks oder Ausweisfotos, wird die Datei in Farbe erstellt. Das Scannen in Farbe wird jedoch in der Regel vermieden, da die erzeugten TIFF-Dateien entweder zu groß sind oder die JPEG-Komprimierung die Bildqualität sichtbar mindert.

Eine gute Bildqualität ist jedoch eine wichtige Voraussetzung für eine gute Texterkennungsrate. Um eine gute Bildqualität bei hoher Komprimierungsrate zu erreichen, ist eine Verarbeitungsleistung erforderlich, über die lokale Multifunktionsdrucker in der Regel nicht verfügen. Eine separate Scansoftware kann in dieser Hinsicht erhebliche Vorteile bieten.

Die einzelnen Verarbeitungsschritte wie Texterkennung, Komprimierung, PDF/A-Erzeugung und digitale Signatur können in der Regel nicht vom Scanner allein durchgeführt werden, da die Metadaten oft nachträglich von einer Indexstation hinzugefügt werden. Dieser Arbeitsschritt bricht jedoch das Siegel der digitalen Signatur und macht sie wertlos. Auch hier kann eine separate Software einen entscheidenden Vorteil bieten.

PDF/A - ein universeller Dokumentenstandard

Der PDF/A-Standard hat sich im Posteingang weitgehend durchgesetzt. Der PDF/A-Standard bietet im Vergleich zu herkömmlichen Dokumentenformaten wie TIFF und JPEG folgende wichtige Vorteile:

  • Das standardisierte Format PDF/A eignet sich sowohl für die Speicherung gescannter als auch digital erstellter Dokumente.

  • Hohe Kompressionsrate Der PDF/A-Standard unterstützt modernere und leistungsfähigere Kompressionsverfahren und damit kleine Dateigrößen für Farbbilder.

  • Texterkennung Die erstellten PDF/A-Dokumente können durch die Einbettung von Text aus einer OCR-Engine durchsuchbar gemacht werden.

  • Eingebettete Metadaten Damit das Dokument und die zugehörigen Metadaten ein untrennbares Ganzes bilden, werden die Metadaten in PDF/A in die Datei eingebettet. Zum Speichern verwendet PDF/A das Format Extensible Metadata Platform (XMP), das wie PDF/A als eigene ISO-Norm definiert ist.

  • Digitale Signatur Um die Integrität und Authentizität der erstellten Dokumente zu gewährleisten, kann eine digitale Signatur nach dem PAdES-Standard auf das PDF/A-Dokument aufgebracht werden. Die digitale Signatur ist eine Art elektronische Unterschrift, die den gleichen Zweck wie eine handschriftliche Unterschrift erfüllen kann, sofern die entsprechenden gesetzlichen Anforderungen (nationale Signaturgesetze) erfüllt sind.

Im Prinzip bieten TIFF-Dokumente alle diese Vorteile, allerdings nur als proprietäre Erweiterungen, da der TIFF-Standard selbst keine Lösungen anbietet

Was kann ein zentraler Scan-Server leisten?

Ein Scan-Server ist ein zentraler Dienst, der innerhalb eines Unternehmens lokal gescannte Dateien und zugehörige Indexdateien in das standardisierte Dateiformat PDF/A konvertiert. Dabei übernimmt der Dienst alle Aufgaben, die von der lokalen Scan-Station an ihn delegiert werden können. Die Lösung eignet sich besonders für Verarbeitungsschritte, die keine Benutzerinteraktion erfordern oder die Effizienz der lokalen Scanstation durch rechenintensive Funktionen (OCR, Komprimierung) beeinträchtigen.

Die wichtigsten Funktionen dieses Dienstes sind:

  • Text- und Barcode-Erkennung Gescannte Bilddateien müssen durchsuchbar gemacht werden. Die Dienste können den 3-Heights® OCR Service nutzen, um Text in einer Bilddatei zu erkennen und ihn in die konvertierte Datei so einzubetten, dass sie durchsuchbar wird. Die erkannten Barcodes können auf verschiedene Arten verwendet werden: in der Textsuche, als Teil der eingebetteten Metadaten oder zur Steuerung der Verarbeitung (Name der Ausgabedatei, Seitentrennung, etc.) innerhalb des Dienstes.

  • Komprimierung Farbbilder werden in mehrere Elemente zerlegt. Mithilfe des MRC-Verfahrens (Mixed Raster Content) werden sie dann stark komprimiert, ohne dass sichtbare Verluste auftreten.

  • Einbettung von Metadaten Die PDF/A-Norm verlangt die Einbettung von Metadaten in das Dokument in Form von XMP-Paketen. Diese Funktion wird vom Dienst angeboten.

  • PDF/A-Erstellung Der Dienst erstellt ein- oder mehrseitige Ausgabedokumente in Übereinstimmung mit der Normenreihe ISO 19005. Alle veröffentlichten Teile der Norm - PDF/A-1, PDF/A-2 und PDF/A-3 - werden unterstützt.

  • Digitale Signatur Die Signatur kann fortgeschritten oder qualifiziert sein, sich für die langfristige Speicherung oder den einfachen Austausch eignen. Sie kann auch einen Zeitstempel enthalten. Anstelle der persönlichen Unterschrift kann nur ein Zeitstempel angebracht werden. Der Dienst kann eine kryptografische Infrastruktur (USB-Token, HSM) über eine Standardschnittstelle (PKCS#11) verwenden, um eine digitale Signatur zu erstellen.

    Ein typischer Ablauf würde folgendermaßen aussehen:

  • Bilderfassung Der Scan-Operator startet den Scanvorgang und erstellt eine TIFF-Farbdatei. Der Scanner speichert die Dateien normalerweise in einem Dateiordner. Faksimile-Dokumente werden vom Faxgerät empfangen und in einem speziellen Ordner als Schwarz-Weiß-TIFF-Dateien gespeichert.

  • Manuelle Klassifizierung Je nach Prozess kann der Scan-Operator eine manuelle Klassifizierung vornehmen. Er steuert den Scanner so, dass die Bilder in verschiedenen Ordnern gespeichert werden (z. B. Rechnungen und Lieferscheine), oder es werden spezielle Barcodeblätter hinzugefügt, die bei der Trennung und Klassifizierung der Dokumente helfen, oder es wird ein Mindestsatz an Indexdateien erstellt.

  • Segmentierung und Komprimierung Das Farbbild jeder Seite wird in seine verschiedenen Elemente, wie Hintergrund, Text und Bilder, zerlegt. Die Größe der einzelnen Elemente wird dann durch Komprimierungsverfahren reduziert, die speziell für diese Art von Elementen entwickelt wurden. Dieses MRC-Verfahren ermöglicht es, wettbewerbsfähige Dateigrößen für Farbdokumente zu erreichen.

  • Text- und Barcode-Erkennung Die Bilder werden von einer OCR-Engine weiterverarbeitet. Das Bild wird bereinigt und entzerrt, und dann erfolgt die Erkennung von Text und Strichcode.

  • Metadaten Informationen aus der manuellen Klassifizierung, erkannten Barcodes und anderen Quellen werden zu standardisierten XMP-Metadaten zusammengestellt.

  • PDF/A-Erstellung Die aufbereiteten Bilder jeder Seite, der erkannte Text und die Metadaten werden zusammen mit dem ICC-Farbprofil des Scanners zu einem PDF/A-Dokument zusammengestellt. Optional kann auch eine Indexdatei erstellt werden, die nur die Metadaten enthält.

  • Digitale Signatur Auf Wunsch können die PDF/A-Dateien digital signiert werden, um die Nachvollziehbarkeit und Revisionssicherheit der Dokumente zu gewährleisten.

  • Validierung Als zusätzliche Option kann die PDF/A-Konformität des erstellten Dokuments und die Gültigkeit der digitalen Signatur überprüft werden. Darüber hinaus bietet der Dienst eine Reihe von Zusatzfunktionen.

Wo kann der Dienst genutzt werden?

Ein Scan-Server wird für die folgenden Zwecke eingesetzt:

  • Paper Capture Elektronische Archivierung von Papierdokumenten, die als Eingangspost in einem Unternehmen eingehen.

  • Facsimile Capture Elektronische Archivierung aller Faxtransaktionen zwischen dem Unternehmen und seinen Geschäftspartnern.

  • Archiv Migration Migration von Papierarchiven in ein elektronisches Archiv mit dem standardisierten PDF/A-Format.

  • Web/Mobile Capture Nutzung des zentralen Dienstes in Client/Server-Anwendungen über einen Webdienst.

  • Integration von Unternehmensanwendungen Nutzung des zentralen Dienstes zur Erstellung von PDF/A-Dokumenten über eine Programmierschnittstelle (API) aus Fachanwendungen, die TIFF- oder JPEG-Dateien erstellen.

Zusammenfassung

Der Aufbau eines digitalen Langzeitarchivs ist zwar in großen Unternehmen unverzichtbar geworden, doch auch kleine und mittlere Unternehmen profitieren davon, da sie ihre Lager- und Personalkosten senken können.

Ein gut durchdachtes Scanning-Verfahren kann dazu beitragen, dass bereits in der ersten Phase der Kette (d. h. beim Posteingang) kein lästiges Papier mehr benötigt wird. Gleichzeitig wird die Gültigkeit der elektronischen Dokumente durch digitale Signaturen sichergestellt. Mit einem zentralen Scandienst können Unternehmen ein leistungsfähiges, flexibles und zukunftssicheres Archivierungsverfahren einführen.

PDF/A, ein standardisiertes Dateiformat für die Langzeitarchivierung, eignet sich nicht nur für gescannte Dokumente, sondern dient auch als Universalformat für digital erstellte Dokumente.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Dr. Hans Bärfuss

Geschrieben von Dr. Hans Bärfuss

Dr. Hans Bärfuss ist der Gründer und Geschäftsführer der PDF Tools AG. Er ist Delegierter der Schweizerischen Normenvereinigung (SNV) für ISO und hilft bei der Standardisierung von Dateiformaten und digitalen Signaturen. Er ist einer der Initiatoren und Gründer der PDF Association und Vorsitzender des Swiss Chapter.

Grüezi! Wie können wir helfen?

Telefon