Ist der Platzbedarf von PDF/A ein Hemmschuh für die Archivierung?
Ein PDF/A-Dokument erfordert, dass alle Ressourcen wie Schriftarten, Farbprofile usw. in die Datei eingebettet werden müssen. Die Archivierung von Transaktionsdokumenten kann ein Alptraum sein, da solche Dokumente in der Regel kurz sind und eine große Anzahl von Kopien derselben Frutiger-Schriftart, des sRGB-Farbprofils und des Firmenlogos enthalten. Viele Archive bevorzugen daher TIFF gegenüber PDF/A, wenn es um originär digitale Dokumente geht. Aber das ist sicher nicht die Idee eines einheitlichen Standards. Wie kann dieses Problem gelöst werden?
PDF/A ist in Archiven für gescannte Dokumente weit verbreitet. Dies liegt vor allem daran, dass PDF/A stärkere und standardisierte Kompressionsalgorithmen bietet, die es ermöglichen, eine farbig gescannte Seite auf weniger als 50 KB zu reduzieren. Auch für einzelne born-digital Dokumente ist PDF/A das bevorzugte Dateiformat. Der Einsatz von PDF/A in der Massenarchivierung von Transaktionsdokumenten ist jedoch noch umstritten. Meiner Meinung nach ist dies jedoch kein Problem des Formats. Es ist ein Problem des Archivierungssystems und muss daher dort gelöst werden.
Die meisten Archivierungssysteme sind stolz darauf, dass sie "Objekte" speichern, ohne sich um deren Format zu kümmern. Diese Unbekümmertheit hat jedoch einen entscheidenden Nachteil. Sie können die Dateien nicht angemessen und intelligent behandeln. Daher fügen die meisten Lösungen für die Massenarchivierung von PDF/A-Dokumenten dem Archivierungssystem eine Softwareschicht hinzu, die versucht, die negativen Auswirkungen von wiederholt eingebetteten Ressourcen zu reduzieren. Es gibt zwei Hauptansätze für diese Softwareschicht.
Der erste Ansatz sammelt einzelne Dokumente und führt sie zu einer einzigen Containerdatei zusammen, für die die Ressourcen so optimiert werden können, dass sie nur einmal in der Datei vorkommen. Diese Datei wird dann an das Archiv übergeben. Wenn ein Dokument abgerufen wird, wird die Containerdatei abgerufen und in die Originaldokumente aufgeteilt.
Der zweite Ansatz trennt die Dokumente in einzelne Ressourcendateien und ein Hauptdokument, das darauf verweist. Die Ressourcen werden dann optimiert, indem gleiche Kopien durch eine einzige Instanz ersetzt werden. Die optimierten Ressourcendateien und die Hauptdokumente werden dann an das Archiv übermittelt. Wenn ein Dokument abgerufen wird, wird es aus seinen Teilen neu aufgebaut.
Ich persönlich bevorzuge den zweiten Ansatz, da er mit einer viel höheren Leistung als der erste Ansatz umgesetzt werden kann. Allerdings wird bemängelt, dass die "Objekte" keine PDF/A-Dokumente mehr sind. Meiner Meinung nach ist dies nicht erforderlich, da die Softwareschicht zum Aufteilen und Zusammenführen der Ressourcen dies für den Benutzer transparent macht und garantiert, dass das Dokument vor dem Speichern und nach dem Abrufen identisch ist. In der Regel lässt sich dieses Argument besser verstehen, wenn man den Mechanismus mit dem Kompressions- oder Verschlüsselungsalgorithmus innerhalb der Speicherschicht des Archivierungssystems vergleicht. Die auf dem Datenträger gespeicherten Daten sind keine PDF/A-Datei mehr, wenn sie in komprimierter oder verschlüsselter Form gespeichert sind. Nach der Dekomprimierung oder Entschlüsselung ist es wieder die gleiche Datei. Dasselbe gilt für die Ebene der Ressourcenverwaltungssoftware.
Ich habe den zweiten Ansatz für Kunden mit großen Dokumentenmengen umgesetzt, und er funktioniert einwandfrei, spart Platz und Kosten.