Scan zu PDF/A - einige Einblicke
Traditionell erzeugt ein Scanner ein TIFF- oder JPEG-Bild für jede Seite. Einige davon können direkt PDF-Dateien erstellen. Und neuere Geräte produzieren Dateien, die dem PDF/A-Standard entsprechen. Die Qualität der produzierten Dateien variiert jedoch erheblich. Warum ist das so und warum lohnt es sich, einen zentralen Scan-Server zu verwenden?
Natürlich geht es bei der Umwandlung von Scan zu PDF nicht nur darum, ein Bild in einen PDF-Umschlag einzubetten. Es kann auch die Erkennung von Texten und Barcodes, die Einbettung von Metadaten und digitalen Signaturen umfassen. In diesem Artikel möchte ich mich jedoch auf die Bilddatenkompression konzentrieren, die als Hauptvorteil von PDF/A gegenüber TIFF vermarktet wird. Es wird gesagt, dass PDF/A besser ist, weil es fortschrittlichere Komprimierungsmechanismen als TIFF bietet. Schauen wir uns also dieses spezielle Thema näher an.
Eine der Hauptanforderungen im Prozess der Umwandlung von Scan zu PDF/A besteht darin, die Dateigröße zu reduzieren. Eine kleinere Größe wird oft zu Lasten einer geringeren Qualität erreicht. Es gibt einige Faktoren, die den Qualitäts-/Größenverhältnis beeinflussen:
Farbe vs. Grau vs. Schwarz / Weiß
Wahl des Komprimierungsalgorithmus (verlustfrei vs. verlustbehaftet)
Mehrere Seiten vs. Einzelne Seite
MRC (Mixed Raster Content) Mechanismus
Die am häufigsten verwendeten zweiwertigen (schwarz-weiß) Komprimierungsalgorithmen sind G4 (Standardname ITU.T6) und JBIG2. G4 ist verlustfrei, während JBIG2 sowohl im verlustfreien als auch im verlustbehafteten Modus betrieben werden kann. Um eine bessere Kompressionsrate zu erzielen, kann verlustbehaftetes JBIG2 Symbole wie Textzeichen in einer Tabelle speichern und wiederverwenden. Wenn die Symboltabelle verwendet wird, kann sie eine signifikante Menge an Speicherplatz sparen, insbesondere in mehrseitigen Dokumenten, da die JBIG2-Symboltabelle für alle Seiten gemeinsam verwendet werden kann. Der Nachteil dieses Mechanismus ist, dass er unerwartet einige Symbole vermischen kann. Aus diesem Grund wird der verlustbehaftete Modus von JBIG2 oft deaktiviert. Aber selbst im verlustfreien Modus hat JBIG2 im Allgemeinen eine bessere Kompressionsrate als G4.
Für Graufarb- und Farbbilder sind die am häufigsten verwendeten Algorithmen JPEG und JPEG2000. JPEG kann nur im verlustbehafteten Modus verwendet werden, während JPEG2000 wieder in beiden Modi verwendet werden kann. Wenn beide Algorithmen im verlustbehafteten Modus verwendet werden, bieten sie ein Parameter, das das Qualitäts-/Größenverhältnis steuert. Obwohl JPEG2000 moderner ist, kann nicht gesagt werden, dass es 'besser' ist als JPEG. Messungen zeigen, dass JPEG2000 bei höheren Qualitätseinstellungen bessere Kompressionsraten hat, während JPEG bei niedrigeren Qualitätseinstellungen im Allgemeinen besser ist. Der Qualitätsverlust führt zu Bildartefakten wie Schatten, die typisch für beide Algorithmen sind. JPEG hat ein zusätzliches Artefakt, das Blocking genannt wird. Es hat seinen Ursprung in der Unterteilung des Bildes in 8 x 8 Pixelblöcke, die unabhängig komprimiert werden. Darüber hinaus reduziert der JPEG-Algorithmus normalerweise die Auflösung des Farbsignals um den Faktor 2 im Vergleich zum Helligkeitssignal, was die Kompressionsrate erhöht, aber die Blockartefakte verstärkt.
Wenn Farbscans in PDF umgewandelt werden, wird oft eine Art Mixed Raster Content-Mechanismus verwendet. MRC trennt die Farbinformationen in Schichten: eine Hintergrundschicht, eine Maskenschicht und eine Anzahl von Vordergrundschichten. Ein typisches Beispiel ist eine Seite, die schwarzen Text mit einigen Worten enthält, die in Rot und Blau hervorgehoben sind. Die Maske würde dann die Formen der Zeichen enthalten und die Hintergrundschicht die Farbe des Textes. Es ist offensichtlich, dass die Maske effizient mit G4 oder JBIG2 und die Hintergrundschicht mit JPEG oder JPEG2000 unter Verwendung einer sehr niedrigen Auflösung komprimiert werden kann. Bei Verwendung dieses Mechanismus kann eine gescannte Seite auf ungefähr 40 k Byte mit guter Qualität reduziert werden. Dieses Ergebnis kann nicht nur durch die Verwendung eines verlustbehafteten Komprimierungsalgorithmus erreicht werden. Wenn die Seite jedoch Grafiken oder Bilder enthält, müssen diese isoliert und mit guter Qualität in einem oder mehreren Vordergrundschichten komprimiert werden. Dieser Isolationsprozess wird Segmentation genannt und ist ein wesentlicher Bestandteil des MRC-Mechanismus.
Jetzt, nach der Überprüfung der verschiedenen Komprimierungsschemata, ist es an der Zeit, sie im Kontext von Archivierungssystemen zu diskutieren. Natürlich ist die Dateigröße oft das wichtigere Thema, aber nicht immer. In vielen Szenarien ist die Anzeigegeschwindigkeit entscheidend. Und in Bezug auf diese Anforderung hat sich JPEG2000 oft als zu langsam erwiesen, insbesondere wenn es mit einem MRC-Mechanismus kombiniert wird. Wie wir gelernt haben, ist JPEG bei höheren Kompressionsraten besser. Warum also nicht mindestens für die Hintergrundschicht verwenden. Die störenden Blockartefakte können reduziert werden, wenn das Heruntersampling des Farbsignals deaktiviert wird. Ein größeres Problem ist, dass Scanner Farb-Bilder nur in JPEG-Kompression liefern, was die Leistung einer serverbasierten Kompressor-Software erheblich reduziert, da das JPEG-Bild Artefakte einführt, die die Segmentierung und MRC-Kompression viel schwieriger machen. Warum also nicht die integrierte Bild-zu-PDF-Konvertierungsfunktion der Scanner verwenden? Dies kann in einer persönlichen Umgebung nützlich sein, aber in Unternehmensanwendungen gibt es viele Gründe, warum man einen zentralen Server verwenden sollte. Die wichtigsten sind: Bessere Qualität, kleinere Dateigrößen, bessere OCR-Qualität, Nachbearbeitungsstufen und vieles mehr.
Und, last but not least. Ist PDF/A besser als TIFF? Die Antwort ist definitiv ja! Aber nicht in Bezug auf die Kompression. TIFF bietet im Wesentlichen die gleichen Komprimierungsalgorithmen wie PDF/A. Die wirkliche Stärke von PDF/A liegt darin, dass es die Einbettung von Farbprofilen, Metadaten und optisch erkannten Text auf standardisierte Weise ermöglicht. Darüber hinaus ist PDF/A ein einheitlicher Standard für gescannte sowie digital geborene Dokumente.