3-Heights™ Scan to PDF Server – Verarbeitung von gescannten Dokumenten nach PDF/A

Das Scannen von Papierdokumenten im Posteingangsbereich einer Unternehmung ist zum Alltag geworden. Oft wird diese Leistung von einem Scan-Dienstleister erbracht. In den meisten Fällen werden die gescannten Bilder als TIFF-Dateien in Schwarz und Weiss erzeugt, so wie man dies von den FAX-Maschinen gewohnt ist. In speziellen Anwendungen wie Checks, Fotos für Ausweise usw. wird die Datei in Farbe erzeugt. Allerdings ist man damit sehr zurückhaltend, weil TIFF-Dateien in Farbe sehr gross werden können.

Der PDF/A-Standard hat sich heute in Posteingangs-Anwendungen, vor allem wenn es um das Scannen in Farbe geht, weitgehend durchgesetzt. Allerdings sind die einzelnen Bearbeitungsschritte wie Texterkennung, Kompression und Digitale Signatur in der Regel nicht optimal aufeinander abgestimmt und nicht in einer Lösung integriert. So gibt es beispielsweise Scanner, die bereits PDF/A-Dateien erzeugen und sie auch signieren können. Das nachträgliche Komprimieren bricht jedoch die Signatur und macht sie wertlos.

Die PDF Tools AG bietet für das Erzeugen von PDF/A-Dateien aus gescannten und via FAX empfangenen Bildern eine Lösung an, welche die wichtigsten Anforderungen wie kleine Dateigrösse, Durchsuchbarkeit und eingebettete Metadaten erfüllt. Das folgende Bild zeigt das Prinzip.

Product illustration 3-Heights™ Scan to PDF Server
  • Einheitliches Format: PDF/A ist für die Speicherung sowohl von gescannten als auch von digital erzeugten Dokumenten gleichermassen geeignet.

  • Hohe Kompressionsrate: Der PDF/A-Standard unterstützt modernere und leistungsfähige Kompressionsverfahren und somit auch kleine Dateigrössen für Farbbilder.

  • Texterkennung: Die erzeugten PDF/A-Dokumente können durch das Einbetten von Texten aus einer OCR-Maschine durchsuchbar gemacht werden.

  • Eingebettete Metadaten: Damit das Dokument und die dazugehörenden Metadaten eine unteilbare Einheit bilden, werden in PDF/A die Metadaten in die Datei eingebettet. PDF/A verwendet für die Speicherung das Extensible Metadata Platform (XMP) Format, welches unabhängig von PDF/A als eigener ISO Standard definiert ist.

  • Digitale Signatur: Um die Integrität und Authentizität der erzeugten Dokumente zu gewährleisten, kann optional eine digitale Signatur nach dem PAdES-Standard auf das PDF/A-Dokument aufgebracht werden. Die digitale Signatur ist eine Form der elektronischen Signatur, welche dem Erfordernis der handschriftlichen Unterschrift gleich gerecht werden kann, wie die handschriftliche Unterschrift selbst, sofern die gesetzlichen Voraussetzungen (nationale Signaturgesetze) dafür erfüllt sind.

Alle diese Vorteile lassen sich mit TIFF-Dokumenten grundsätzlich auch realisieren, jedoch nur als proprietäre Erweiterungen, da der TIFF-Standard selbst dafür keine Lösungen bereithält.

Illustration 1: Vorteile von PDF/A gegenüber TIFF
AnforderungTIFFPDF/A
Langfristige Lesbarkeit++
Eindeutige Wiedergabe++
DatenkonsistenzProprietäre Tags für Metadaten+
Authentizität / IntegritätMit abgesetzten Signaturen+
SpeicherplatzbedarfSchwarz / Weiss: +
Farbe: -
+
DurchsuchbarkeitProprietäre Tags für OCR Text+
Langezeiterfahrung++

Die einzelnen Bearbeitungsschritte wie Texterkennung, Kompression, PDF/A-Erzeugung und digitale Signatur können in der Regel nicht durch den Scanner alleine ausgeführt werden, weil oft nachträglich Metadaten von einer Index-Station hinzugefügt werden. Dieser Arbeitsschritt bricht jedoch das Siegel der digitalen Signatur und macht sie wertlos. Auch für diesen Aspekt bietet eine separate Software einen entscheidenden Vorteil.

Features

  • Umwandlung von Einzel- oder Mehrfachseiten mit Rasterbildern zu PDF
  • Setzen des Ausgabeformats und der Konformitätsstufe (PDF, PDF/A-1, PDF/A-2 and PDF/A-3)
  • Optionale Schrifterkennung (OCR)
  • Digitale PDF Signatur
  • Parallele Verarbeitung

Komprimierung

  • Setzen einer individuellen Bildkomprimierung für verschiedene Bildklassen
  • Unterstützung von Mixed Raster Content (MRC)
  • CCITT Group3 (1D and 2D)
  • CCITT Group4
  • LZW
  • JPEG
  • Deflate (ZIP)
  • JPEG2000
  • JBIG2 (nur verlustfrei)
Produkt Illustration 3-Heights™ Scan to PDF Server

Additional functions

  • Einbettung der XML-Daten: Wenn die TIFF-Dateien aus Fachapplikationen erzeugt werden, dann ist es oft erwünscht, dass XML-Rechnungsdaten eingebettet werden, beispielsweise nach dem ZUGFeRD-Standard. Dazu werden die Möglichkeiten von PDF/A‑3 genutzt.
  • PDF/A Validierung: Zur Sicherung der Qualität bei der Erzeugung von PDF/A Dateien kann wahlweise eine Prüfsoftware eingesetzt werden, um die Konformität mit dem ISO-Standard zu gewährleisten.
  • Dokumente abmischen: Einseitige Bilder sollen in mehrseitige Dateien abgemischt werden. Oder, Dokumente, welche zu demselben Geschäftsfall gehören, sollen zu einer einzigen Datei oder Dateisammlung, welche beispielsweise einer Akte entspricht, zusammengefügt werden. Für diese Funktion kann der Dienst Textdateien lesen, welche das Abmischen steuern.
  • Stempeln: Nach Bedarf können die erzeugten Dokumente mit Stempel oder Wasserzeichen versehen werden. Der Dienst verarbeitet dafür eine XML-Datei, welche die Stempel-Daten enthält.

Zusätzliche Funktionen können durch Erweiterung in den Dienst integriert werden.

Erweiterbarkeit durch Zusatzfunktionen

  • Automatische Klassifikation: Die automatische Klassifikation von Dokumenten aufgrund ihres Inhalts, das Auslesen von Lieferanten und Kundenadressen, Rechnungsnummern usw. kann die Verarbeitung von hohen Dokumentenvolumen stark beschleunigen. Dieses Verfahren macht die Index-Stationen für einen grossen Teil der gescannten Dokumente überflüssig.
  • Zerlegen und Zusammenfügen von Seiteninhalten: Der Inhalt einer Seite kann mehrere logische Abschnitte haben, welche beispielsweise durch Barcodes getrennt sind. Eine wünschenswerte Funktion könnte sein, dass diese Abschnitte isoliert und auf getrennte Seiten verteilt werden.
  • Umwandlung von Farbe in Graustufen: Wenn Farbe in der spezifischen Anwendung nicht erforderlich ist, dann spart dies noch zusätzlich Speicherplatz.
  • Import anderer Dateiformate: Es gibt Scanner, welche direkt PDF-Dateien liefern, welche durch den 3‑Heights™ Scan to PDF Server importiert und optimiert werden können.
  • Automatische Steuerung der Arbeitsschritte: Aufgrund von Inhalten oder Formaten kann der 3‑Heights™ Scan to PDF Server Art und Abfolge der Arbeitsschritte steuern.

Einsatzgebiete

  • Paper Capture: Elektronische Archivierung von Papier-Dokumenten, welche im Posteingang einer Unternehmung anfallen.

  • Facsimile Capture: Elektronische Archivierung des gesamten FAX-Verkehrs zwischen der Unternehmung und seinen Geschäftspartnern.

  • Archive Migration: Migration von Papier-Archiven in ein elektronisches Archiv mit dem standardisierten PDF/A Format.

  • Web / Mobile Capture: Nutzung des zentralen Dienstes in Client / Server-Anwendungen über einen Webdienst.

  • Enterprise Application Integration: Nutzung des zentralen Dienstes für die PDF/A Dokumentenerzeugung über eine Programmierschnittstelle (API) aus Fachapplikationen heraus, welche TIFF- oder JPEG-Dateien erzeugen.

Compliance

Standards:

  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 32000-1 (PDF 1.7)

Distributed architecture and scalability

Der 3‑Heights™ Scan to PDF Server ist ein skalierbarer und weitgehend konfigurierbarer Dienst. Der Dienst ruft für jeden Arbeitsschritt wie Kompression, OCR-Erkennung, Umwandlung in PDF/A usw. ein separates Programm auf. Dieses erhält als Eingabe das Resultat des vorangegangenen Arbeitsschritts und stellt die Ausgabe für den nächsten Arbeitsschritt bereit. Die Verknüpfung der Arbeitsschritte erfolgt über eine Konfigurationsdatei in XML. Diese Architektur erlaubt eine sehr flexible Gestaltung der Arbeitsprozesse des Dienstes und fast beliebige Erweiterungsmöglichkeiten (siehe weiter unten), indem zusätzliche Arbeitsschritte hinzugefügt werden.
Um den Grad der parallelen Verarbeitung zu steigern, können die Dokumente in einzelne Seiten zerlegt und parallel durch die Verarbeitungsstufen geschickt werden, an deren Ende sie wieder zu einem einzigen Dokument zusammengefügt werden. Diese Möglichkeit ermöglicht eine stark verbesserte Auslastung der Computerressourcen (Prozessorkerne, Speicher, Ein- und Ausgabe, OCR-Maschine usw.).

Betriebssystem

  • Windows Vista, 7, 8, 8.1, 10 - 32 & 64 bit
  • Windows Server 2008, 2008 R2, 2012, 2012 R2, 2016 – 32 & 64 bit

Schnittstellen

  • API: C, Java, .NET, COM
  • Befehlszeile für Stapelverarbeitung

Produktvarianten

  • Service

Referenzen 3-Heights™ Scan to PDF Server