Die Geschichte und die Entstehung des Formats PDF/A
PDF/A wird sich zweifellos als Standard für die Langzeitarchivierung von elektronischen Dokumenten etablieren. Es wurde am 1. Oktober 2005 als ISO-Norm veröffentlicht und hat sich seitdem auf den Weg gemacht, die Welt zu erobern. Als Schweizer Vertreter im ISO-Komitee für PDF/A ist PDF Tools Ihr kompetenter Ansprechpartner für alle Fragen rund um PDF/A. Wir helfen Ihnen gerne weiter, wenn Sie auf dieser Website keine Antworten auf Ihre spezifischen Fragen finden.
Einführung in PDF/A
Hintergrund - was steckt hinter PDF/A und woher kommt es?
Am 28. September 2005 verabschiedete die International Standards Organization (ISO) eine neue Norm für die Archivierung elektronischer Dokumente:
ISO-19005-1 - Document management - Electronic document file format for long-term preservation - Part 1: Verwendung von PDF 1.4 (PDF/A-1).
Der Standard war das Ergebnis einer mehr als 36-monatigen Zusammenarbeit zwischen Unternehmen und Organisationen auf der ganzen Welt.
Im Mai 2002 starteten die Association for Information and Image Management (AIIM), die National Printing Equipment Association (NPES) und die Verwaltungsbehörde der US-Gerichte eine Initiative zur Schaffung standardisierter Formate für elektronisch archivierte Dokumente. Das Kick-off-Meeting fand im Oktober 2002 statt. Daran nahmen PDF-Hersteller wie Adobe Systems, Library of Congress, Surety Inc., Quality Associates Inc., Appligent, Merck, EMC, PDF Sages und NARA (National Archives and Records Administration) teil. Später schlossen sich auch Xerox, Honeywell, EDS und Glaxo Smith Kline an, um nur einige zu nennen.
Die Gründer des Projekts erstellten eine erste Version und reichten ihre Empfehlung bei der ISO ein, um sie als internationalen Standard registrieren zu lassen. Die ISO wies das Projekt dem Technischen Ausschuss TC 171 (Document Management Applications) zu. TC 171 besteht aus Vertretern von 13 Mitgliedsländern (je eine Stimme) sowie Beobachtern aus weiteren 21 Ländern. Nach zahlreichen Überprüfungen und Verbesserungen wurde die Norm im September 2005 angenommen.
Warum die PDF/A-Initiative?
Die Archivierungsformate variieren von Land zu Land. Die traditionellen Archivierungsmethoden (Papier, Mikrofilm, Mikrofiche) gewährleisten zwar die Reproduzierbarkeit, entsprechen aber nicht mehr dem neuesten Stand der Technik. Große Dokumente können nicht schnell um den Globus verschickt werden, und es ist äußerst schwierig, die archivierten Dokumente nach bestimmten Inhalten zu durchsuchen. Viele Organisationen richten TIFF-Archive als ersten Schritt zur elektronischen Archivierung ein. TIFF garantiert zudem eine langfristige Reproduzierbarkeit und ist ein etabliertes Format. TIFF kann heute in global vernetzten Organisationen schnell und einfach übertragen werden, die Suche ist jedoch nach wie vor schwierig.
An diesem Punkt begann man, PDF in Betracht zu ziehen. Es gibt eine Reihe von Gründen, die PDF attraktiver machen als TIFF:
PDF speichert strukturierte Objekte (wie Texte, Vektorgrafiken, Rasterbilder), die eine effiziente Suche im gesamten Archiv ermöglichen. TIFF hingegen ist ein Rasterformat und muss mit einer OCR-Maschine verarbeitet werden, um eine Volltextsuche zu ermöglichen.
PDF-Dateien sind kompakter und benötigen oft nur einen Bruchteil des Speicherplatzes einer entsprechenden TIFF-Datei, oft sogar bei besserer Qualität. Die geringe Dateigröße ist besonders beim elektronischen Datenaustausch (FTP, E-Mail-Anhänge usw.) von Vorteil.
Metadaten wie Titel, Autor, Erstellungs- und Änderungsdatum, Inhalt, Schlüsselwörter usw. können direkt in das PDF-Dokument eingebettet werden. So können sie automatisch und ohne menschliches Zutun klassifiziert werden.
Die Seiteninhalte in einem PDF-Dokument sind in der Regel geräteunabhängig, d.h. unabhängig von der Rasterauflösung, dem Farbcode usw. Erst bei der Wiedergabe (Rendering-Prozess) werden die Seiten auf dem Raster dargestellt. PDF-Dokumente profitieren daher auch noch Jahre später vom technologischen Fortschritt der Ausgabegeräte wie Drucker, Monitor etc.
Der Erfinder des PDF-De-facto-Standards, Adobe Systems, hat in den letzten dreizehn Jahren acht neue Versionen seines "PDF Reference Manual" veröffentlicht. Mit jeder neuen Version wurde das Format um zahlreiche neue Funktionen erweitert und einige der alten Funktionen verändert. Es war daher notwendig, einen stabilen, international anerkannten Standard für die Langzeitarchivierung zu entwickeln, der auf den Adobe-eigenen PDF-Spezifikationen aufbaut. Das Ergebnis ist: PDF/A.
Der PDF/A-Standard
Zweck von PDF/A
Die ISO-Norm 19005 definiert ein auf PDF basierendes Dateiformat namens PDF/A. Das Format bietet einen Mechanismus, der elektronische Dokumente so darstellt, dass das visuelle Erscheinungsbild über einen längeren Zeitraum erhalten bleibt, unabhängig von den Werkzeugen und Systemen zur Erstellung, Speicherung und Reproduktion.
Diese Norm spezifiziert weder die Methoden noch die Absicht oder den Zweck der Erhaltung. Die Norm soll also gewährleisten, dass elektronische Dokumente auch in Zukunft in ihrem ursprünglichen Erscheinungsbild betrachtet werden können. Aus diesem Grund darf das Dokument weder indirekt noch direkt auf eine externe Quelle verweisen. Ein Beispiel wäre ein externes Bild oder eine Schriftart, die nicht in das Dokument selbst eingebettet ist.
Vergleich zwischen PDF und PDF/A
Das normale PDF-Format garantiert weder langfristige Reproduzierbarkeit noch völlige Unabhängigkeit von der Software und dem Ausgabegerät. Um beide Prinzipien zu gewährleisten, war es notwendig, die bestehende PDF-Spezifikation sowohl zu begrenzen als auch zu erweitern. Es war von Anfang an klar, dass PDF/A-1 auf einer bestehenden Version von PDF basieren musste, um die Akzeptanz eines breiten Publikums zu erreichen. Das ISO-Komitee TC 171 wählte die Adobe PDF-Referenz 1.4 als Basis für den PDF/A-1-Standard.
Die PDF-Referenz 1.4 wurde von Adobe in ihrem Produkt Acrobat 5 implementiert. PDF/A-1 muss als Standard alle Anforderungen dieses Dokuments erfüllen und auch bestimmte technische Einschränkungen von Acrobat 5 berücksichtigen. Die ursprüngliche PDF-Referenz und ISO 19005-1 bilden zusammen den aktuellen PDF/A-1-Standard. ISO 19005-1 identifiziert nur die Unterschiede zur PDF-Referenz. Dementsprechend ist die PDF-Referenz 1.4 die zentrale Grundlage, um den PDF/A-1-Standard zu verstehen.
Einige Funktionen von PDF 1.4, wie Transparenz oder die Wiedergabe von Audio und Video, sind im PDF/A-1-Standard verboten. Bestimmte Optionen von PDF 1.4 sind in PDF/A-1 obligatorisch: So müssen beispielsweise alle verwendeten Schriften in das Dokument eingebettet sein. Die PDF/A-1-Norm macht im Wesentlichen nichts anderes, als einzelne Merkmale der PDF-Referenz 1.4 zu benennen und anzugeben, ob sie unbedingt erforderlich, empfohlen, eingeschränkt oder nicht erlaubt sind.
Die PDF/A, A-1a, A-1b, A-2 "Babylon"
Der PDF/A-1 Standard ist in zwei Konformitätsstufen unterteilt: PDF/A-1a und PDF/A-1b.
PDF/A-1a (Level A Conformance) definiert die Konformität mit allen Anforderungen des PDF/A-1-Standards.
Die Mindestanforderungen für die Konformität mit PDF/A-1 sind in PDF/A-1b (Level B Conformance) enthalten. Die Anforderungen von PDF/A-1b sind in der Regel ausreichend für eine eindeutige Reproduktion über einen längeren Zeitraum.
PDF/A-1a unterscheidet sich von PDF/A-1b vor allem in Bezug auf die Anforderungen an die Barrierefreiheit (Paragraph 508 des US Rehabilitation Act).
PDF/A-1a garantiert, dass der Dokumententext extrahierbar ist und dass die logische Struktur des Dokuments sowie der natürliche Leseprozess des integrierten Textmaterials erhalten bleiben. Die Textextraktion ist vor allem dann von Interesse, wenn Dokumente auf mobilen Geräten (z.B. PDA) angezeigt oder im Sinne von Paragraph 508 des US Rehabilitation Acts visualisiert werden sollen. Dazu gehört die Anforderung, dass die Darstellung des Textes durch Umstrukturierung (Reflow) auf den verkleinerten Bildschirm passt. Diese Funktionalität wird auch als tagged PDF bezeichnet.
PDF/A-1b stellt sicher, dass Text und andere Inhalte auf Seiten einheitlich wiedergegeben werden; es ist jedoch keine Garantie dafür, dass der eingebettete Text verständlich und maschinenlesbar ist. Dem Ersteller einer PDF/A-1b-konformen Datei steht es frei, den Text in einer lesbaren Form einzubetten, auch wenn die strengeren Anforderungen gemäß der oben genannten Section 508 nicht erfüllt sind.
Für gescannte Dokumente ist die Konformität mit PDF/A-1b völlig ausreichend, auch wenn sie mit OCR verarbeitet wurden, um eine Volltextsuche zu ermöglichen.
Im Juli 2011 veröffentlichte der Technische Ausschuss einen neuen Teil der Norm: ISO 19005-2 (PDF/A-2). Während PDF/A-1 auf PDF Version 1.4 basiert, nutzt PDF/A-2 Funktionen, die erst in späteren PDF-Versionen bis einschließlich PDF Version 1.7 verfügbar wurden. Vor allem aber basiert PDF/A-2 nicht mehr auf einer bestimmten Adobe-PDF-Version, sondern auf der ISO-Norm 32000-1.
Das ISO-Komitee veröffentlichte im Oktober 2012 die dritte Ausgabe der Norm (ISO 19005-3). PDF/A-3 enthält nur eine notwendige, aber umstrittene Änderung: PDF/A-2 ermöglichte bereits die Einbettung von PDF/A-konformen Dokumenten als Anhänge. Mit PDF/A-3 ist es jedoch erstmals möglich, beliebige Dokumentformate wie Excel-, Word-, HTML-, CAD- oder XML-Dateien einzubetten.
Verwendung des PDF/A-Standards
Wie erhalte ich eine Kopie?
Die PDF/A-Norm ISO 19005 kann auf der ISO-Website erworben werden. Kopien können auf Papier oder elektronisch im PDF-Format bestellt werden und sind wie alle anderen ISO-Normen urheberrechtlich geschützt. Es ist daher illegal, kostenlose Kopien über das Internet anzubieten. Die Norm ist derzeit nur in englischer Sprache verfügbar.
Wer sollte die Norm lesen?
Der Zweck der PDF/A-Norm ist die Unterstützung und Verbesserung von Archivierungsstrategien. Die Norm selbst ist recht technisch und kann nur von Experten mit umfassenden Kenntnissen von Seitenbeschreibungssprachen, wie PostScript und PDF, verstanden werden. Das Hauptdokument selbst ist klein, aber der Umfang des Basisdokuments ist sehr groß. Allein die PDF-Referenz 1.4 umfasst 1.000 Seiten, nicht eingerechnet die referenzierten Dokumente (Schrift- und Kompressionsformate, XML-Spezifikationen, ICC-Farbprofile, digitale Signaturen, RFCs usw.).
Darüber hinaus garantiert der Standard allein noch keine Langzeitarchivierung. Es ist empfehlenswert, einen Experten zu konsultieren, um die PDF/A-Anforderungen vollständig zu verstehen, eine darauf basierende unternehmensweite Archivierungspolitik zu implementieren und die langfristigen Ziele der Dokumentenarchivierung zu erreichen.
Welche Instrumente sind verfügbar?
Werkzeuge zur Erstellung, Bearbeitung und Validierung von PDF-Dokumenten sind seit Mitte 2006 auf dem Markt. Adobe selbst hat entsprechende Funktionen in die Version 8 von Adobe Acrobat integriert, die im Herbst 2006 erschienen ist. Auch Microsoft bietet ein separat herunterladbares Plug-in für Office 2007 an, das die Erstellung von PDF/A-konformen Dateien direkt aus Office-Produkten ermöglicht. Angesichts der Vielzahl der bereits auf dem Markt befindlichen Produkte zur Erstellung von PDF/A ist es inzwischen sehr wichtig geworden, jedes erstellte PDF/A-Dokument auf seine PDF/A-Konformität hin zu überprüfen.
PDF/A erfordert eine umfassende Lösung
Der PDF/A-Standard ist lediglich ein Bestandteil einer umfassenden Lösung. PDF/A allein garantiert keine Langzeitarchivierung oder dass die Anzeige wie vorgesehen funktioniert. PDF/A erhebt auch nicht den Anspruch, in jedem Szenario die am besten geeignete Lösung zu sein. Andererseits definiert PDF/A die spezifischen Anforderungen an elektronische Dokumente, damit diese langfristig aufbewahrt werden können.
Bei der Umsetzung eines PDF/A-konformen Archivs müssen weitere Aspekte berücksichtigt werden. Dazu gehören unter anderem unternehmensinterne Standards und Prozesse, Qualitätsmanagement, verlässliche Datenquellen und dedizierte Anforderungen, die auf den jeweiligen Anwendungszweck zugeschnitten sind. Insbesondere die Migration von bestehenden Papier- oder TIFF-Archiven in ein PDF/A-konformes Archiv ist eine nicht unerhebliche Aufgabe und muss daher sorgfältig geplant werden.
PDF/A-Zusammenfassung
PDF/A als neuer Archivierungsstandard
PDF/A wird voraussichtlich der neue Standard für die Archivierung elektronischer Dokumente werden. PDF ist im privaten und öffentlichen Sektor weltweit allgegenwärtig und wird bereits als Format für unzählige Zwecke akzeptiert. Der PDF/A-Standard wird dazu beitragen, dass die Benutzer Dokumente auch nach langer Zeit noch sicher reproduzieren können.
Die Einführung des PDF/A-Standards wird (wie es sich gehört) wahrscheinlich auch die zukünftige Entwicklung von PDF selbst beeinflussen. Unabhängig davon wird Adobe mit Verbesserungen und der Einführung neuer Funktionen fortfahren. Beispiele sind 3-D-Modelle oder XFA für dynamische PDF-Formulare. Dies wird den Druck auf den Standard weiter erhöhen, denn das Wesen eines Standards - insbesondere eines Archivierungsstandards - besteht darin, dass er nicht häufig geändert wird.
Wie wird der Markt reagieren?
Wir sollten nicht erwarten, dass PDF/A-Produkte den Markt überschwemmen werden. Es erfordert ein erhebliches Wissen, um die Technologie hinter PDF/A zu verstehen. Zudem hat der Anwender höhere Qualitätsansprüche an eine standardkonforme Software.
Mitte 2006 kamen die ersten Tools auf den Markt. Gefragt sind die PDF/A-konforme Produktion, die PDF/A-Validierung sowie die einfache Konvertierung bestehender PDF-Dokumente in konforme PDF/A-Dateien.
Das Erscheinen der ersten professionellen PDF/A-Werkzeuge hat bereits Prozesse zur Implementierung von PDF/A-konformen Archivierungssystemen angestoßen. Allzu viel Funktionalität sollte an dieser Stelle nicht erwartet werden. Es ist zu erwarten, dass zunächst nur eingeschränkt PDF/A-1b und erst später das komplette PDF/A-1a angeboten wird.
Wie so oft bei der Einführung eines neuen Standards werden viele Produkte auf den Markt kommen, die mit PDF/A-Konformität werben, aber die Anforderungen des Standards nicht erfüllen. Gerade in der Einführungsphase sind Expertise zur Bewertung und seriöse Anbieter gefragt.
Heiße Luft oder langfristige Strategie?
PDF/A wird nicht von kurzer Dauer sein. Der Bedarf an einem standardisierten Rahmen für die Archivierung mit PDF besteht schon seit einigen Jahren. Und: In vielen Anwendungen wird PDF mit Hilfe unternehmensspezifischer Richtlinien bereits zu diesem Zweck eingesetzt.
Dass Microsoft auf die Kundennachfrage reagiert und die Erstellung von PDF/A-Dokumenten direkt aus der neuesten Office-Palette ermöglicht, ist ein deutliches Signal. PDF/A ist international akzeptiert und wird sich durchsetzen.