Dr. Hans Bärfuss, Founder & CEO of PDF Tools AG

Artikel Information

Quelle: DOK, 2011-04

Autor: Dr. Hans Bärfuss

Publikation: DOK.magazin


Warum ist PDF/A auch für SharePoint Anwendungen wichtig?

Kaum eine andere Plattform ist in Organisationen so omnipräsent geworden wie SharePoint. Dabei ist der SharePoint Server kein Endprodukt, sondern eine Applikationsplattform, auf der DMS-Systeme wie windream und kundenspezifische Lösungen aufsetzen.

SharePoint und der Lebenszyklus des Dokuments

SharePoint-Applikationen steuern den Lebenszyklus der Dokumente in einer Organisation, von der Erzeugung, mehrfachen Überarbeitung bis hin zur Publikation – und wie sie abschlie- ßend entsorgt beziehungsweise aufbewahrt werden. Denn mit Hilfe von SharePoint wird sichergestellt, welche Dokumente in einer Organisation erzeugt werden können, welche Vorlagen benötigt werden, welche Metadaten beizubringen sind, in welcher Struktur die Dokumente in jeder Phase des Lebenszyklus zu speichern sind, wie der Zugriff zu steuern ist, wie die Dokumente in Prozessen weitergegeben werden, welche Richtlinien für dokumentenbezogene Aktionen gelten sollen, welche Aktionen aufgezeichnet werden sollen, welche Dokumente aufbewahrt, geschützt oder entsorgt werden sollen.

SharePoint und die SharePoint-Applikationen implementieren alle diese Aspekte des Dokumentenmanagements. Damit die Mitarbeiter in ihrer alltäglichen Arbeit ihre gewohnten Werkzeuge einsetzen und gleichzeitig Vorteile aus der SharePointPlattform ziehen können, unterstützt das Office System von Microsoft, wie z.B. Word oder Outlook, mit spezifischen Funktionen die Phasen des Lebenszyklus eines Dokuments.

Angesichts all dieser lobenswerten Verbesserungen der Produktivität und Kollaboration sowie bezüglich der nahtlosen Integration der Applikationen durch die SharePoint-Plattform: Das Thema Dokumentenformat kann dabei leicht aus dem Blickwinkel geraten. Aber löst der intuitive Reflex, alles von einem Hersteller zu kaufen, alle Probleme?

Das Dokumentenformat spielt doch eine Rolle!

Seit einiger Zeit wird von der Politik und der Privatwirtschaft gefordert, dass zukünftig nur noch offen dokumentierte, herstellerunabhängige, standardisierte Dateiformate benutzt werden sollen, um die Interoperabilität und den langfristigen Zugriff auf Dateiinhalte sicherzustellen. Durch die Verbannung proprietärer Dateiformate und durch eine funktionierende Interoperabilität wird der Zwang zu offener Anwendersoftware und zu offenen Betriebssystemen gelockert. Kostenanalysen zeigen, dass durch offene Dateiformate Lock-in-Effekte langfristig besser vermieden werden können, als mit offener Software. Soweit die Theorie. Aber welches Dateiformat ist nun in der Praxis am besten geeignet?

Die Formate PDF, PDF/A, ODF und OOXML nehmen für sich in Anspruch, dass sie gut dokumentiert und herstellerunabhängig sind. Sie sind alle standardisiert, keine Frage. Aber ist jedes dieser Formate auch für alle Phasen des Lebenszyklus gleich gut geeignet? Und gibt es gute Gründe, um das Format während des Lebenszyklus zu wechseln?

Fragt man Hersteller von Dokumentenmanagement- und Archivsystemen, so erhält man rasch die Antwort: „Wir stellen sicher, dass jedes Dokument genau so wieder abgerufen werden kann, wie es gespeichert wurde.“ Aber genügt dies wirklich? Wenn wir das Dokument langfristig aufbewahren wollen, dann bestimmt nicht. Denn die alles entscheidende Frage ist doch, wie wir das Dokument unabhängig von der Hardware, der Betriebssystemplattform und der Anwendersoftware das Dokument in Zukunft wieder einwandfrei darstellen und lesen können.

Um der Frage weiter nachzugehen, teilen wir den Lebenszyklus eines Dokuments grob in zwei Phasen, „Arbeitsdokument“ und „Finales Dokument“, auf und sehen uns die Anforderungen bezüglich Dokumentenaustausch und langfristiger Aufbewahrung an. Am Ende werden wir zu dem Schluss kommen, dass ODF und OOXML für die Phase des „Arbeitsdokuments“ und PDF, besser noch PDF/A, für das „Finale Dokument“ am besten geeignet, im Fall der langfristigen Aufbewahrung sogar ein Muss ist. Um diese These zu untermauern, schauen wir uns im Folgenden die Dateiformate etwas genauer an:

PDF

PDF ist weltweit verbreitet und in fast allen Marktsegmenten präsent. Die meisten von uns kennen und verwenden den Ausdruck „PDF“ als Anhang einer Email oder als Dokument, welches man von einem Webportal herunterladen kann, haben aber nur eine rudimentäre Vorstellung davon, was genau es damit auf sich hat. Die Abkürzung PDF steht für „Portable Document Format“ und bezeichnet ein Dateiformat. PDF wurde in den frühen 1990er Jahren von Adobe Systems Inc. als plattformunabhängiges Dateiformat entwickelt. Aufgrund der Erfahrungen mit seinem erfolgreichen Vorgänger PostScript setzte sich Adobe die folgenden Ziele: Austausch und Darstellung elektronischer Dokumente ermöglichen, Texte und Bilder unabhängig von der Auflösung graphisch darstellen, Dokumente für die Webansicht optimieren, interaktive Funktionen anbieten. PDF ist als elektronisches Dokumentenformat aus mehreren Gründen attraktiv.

PDF ist plattformunabhängig; so lässt sich z. B. eine PDF-Datei, die mit einer Windows-Applikation erstellt wurde, anschließend auf einem UNIX-Server weiterverarbeiten und auf Macintosh Computern betrachten. Das PDF-Format baut auf der bewährten PostScript-Seitenbeschreibungssprache auf und bietet viele Extrafunktionen wie direkter Zugriff auf Seiten, Komprimierung, Verschlüsselung, interaktive Navigation, Kommentare, Formulare. Zudem ist PDF heute das am meisten eingesetzte Format für die Produktion von Druckvorlagen in der digitalen Druckvorstufe. Private Organisationen, Behörden und das Bildungswesen überarbeiten ihre Businessprozesse, indem sie papierbasierte Arbeitsprozesse mit elektronischem Informationsaustausch ersetzen.

Einer der Hauptgründe, warum sich PDF derart weit verbreitet hat, ist der PDF-Reader von Adobe. Dieser ist seit langem kostenlos erhältlich. Bezahlen muss der Kunde nur für diejenigen Funktionen, mit denen man PDF-Dokumente herstellt oder bearbeitet. Seit der ersten Veröffentlichung des Formats hat Adobe andere Hersteller dazu aufgefordert, PDF in ihrer Anwendungssoftware zu implementieren. Dieses Signal wurde vom Markt gehört und sein Echo hat sich als beachtliche Anzahl von unabhängigen Anbietern von PDF-Software und -Komponenten manifestiert.

Die erfolgreiche Entwicklungsgeschichte von PDF hat das Vertrauen in das Format außerordentlich gestärkt. Als einzigen Makel empfand man, dass PDF ein proprietäres Format von Adobe war. Der Ruf nach einem international anerkannten Standard wurde laut. Keine Überraschung also, dass sich PDF zu einem ISOStandard (ISO 32000) für den elektronischen Austausch von Dokumenten entwickelt hat: Der erste Teil des Standards (PDF 1.7) wurde 2008 publiziert, der zweite Teil (PDF 2.0) ist auf den Herbst 2011 geplant. Der Standard bildet auch die gemeinsame Basis weiterer ISO-Standards, die sich auf spezifische Einsatzgebiete von PDF beziehen. Die wichtigsten sind PDF/X für den Dokumentenaustausch, vor allem in der grafischen Industrie, PDF/A für die langfristige Aufbewahrung und PDF/VT für das Drucken hoher Volumen von Transaktionsdokumenten mit variablen Daten.

PDF/A

Die Hauptinitiatoren für die Erschaffung einer Norm für das regelkonforme Archivieren elektronischer Dokumente waren die AIIM (Association for Information and Image Management), die NPES (National Printing Equipment Association) und die Verwaltung der US-amerikanischen Gerichte. Ihr erklärtes Ziel war die Defi- nition eines standardisierten Formats für elektronisch archivierte Dokumente. Das Resultat der Initiative war die ISO-Norm 19005. Sie definiert ein Dateiformat, basierend auf PDF, genannt PDF/A.

Das Format bietet einen Mechanismus, der elektronische Dokumente auf solche Weise darstellt, dass das visuelle Erscheinungsbild über lange Zeit erhalten bleibt, unabhängig von Werkzeugen und Systemen zur Herstellung, Speicherung und Wiedergabe. Dieser Standard legt weder die Methode, noch den Sinn und Zweck der Archivierung fest. Definiert wird eine Norm für elektronische Dokumente, die garantieren soll, dass ein Dokument auch in Zukunft originalgetreu dargestellt werden kann.

Das PDF-Format selbst gewährleistet keine langfristige Reproduzierbarkeit, auch nicht die völlige Unabhängigkeit von der Software und dem Wiedergabegerät. Um beide Prinzipien für das neue Archivierungsformat zu garantieren, musste der bestehende PDF-Standard daher eingeschränkt und zugleich erweitert werden. Deshalb darf das Dokument weder direkt noch indirekt auf eine externe Quelle verweisen. Ein Beispiel dafür wäre ein externes Bild. Gewisse Funktionen von PDF, wie zum Beispiel die Wiedergabe von Ton und Video, sind in PDF/A ebenfalls nicht erlaubt. Andere Optionen von PDF sind dagegen in PDF/A obligatorisch: So müssen alle verwendeten Schrifttypen im Dokument eingebettet sein.

Der PDF/A-Standard macht also im Wesentlichen nichts anderes, als einzelne Eigenschaften der PDF-Referenz 1.4 zu präzisieren bzw. festzulegen, ob diese absolut notwendig, empfohlen, eingeschränkt oder unerlaubt sind. Die PDF/A Norm (ISO 19005) ist dabei als Reihe ausgelegt, die mehrere Standards umfasst. Bisher ist lediglich der erste Teil (PDF 1.4) im Jahre 2005 in Kraft gesetzt worden. Der zweite Teil (PDF 1.7) wird im Frühjahr 2011 publiziert werden und basiert vollständig auf der ISO 32000 Norm.

ODF

Das OpenDocument Format (ODF) ist ein offenes, XML-basiertes Dokumentenformat für die Büroanwendungen Textbearbeitung, Tabellenkalkulation und Präsentation. Das Format zeichnet sich dadurch aus, dass es sich auf andere offene Standards abstützt, wo immer dies möglich war, wie beispielsweise auf die Formate von Multimediainhalten oder von Schriften. Das ODF-Format wurde ursprünglich von Sun als Dateiformat für die OpenOffice-Programme entwickelt. Ein technisches Komitee bei OASIS hat das Format weiterentwickelt und im Jahre 2005 als OpenDocument Format (ODF) veröffentlicht. Version 1.0 und 1.1 von OpenDocument sind inzwischen als ISO 26300 Standard international genormt, Version 1.2 existiert seit 2009 als Entwurf.

OOXML

Die Bezeichnung OOXML ist die Abkürzung für Open Office XML und ist ebenfalls ISO Standard. Open Office XML wurde von Microsoft entwickelt und einer Arbeitsgruppe der Ecma International zur Standardisierung vorgelegt. Die Veröffentlichung erfolgte im Jahre 2006 als Ecma-376. Im Jahre 2008 wurde der Standard als ISO 29500 veröffentlicht. Der gesamte Normierungsprozess war äusserst schwierig, musste Rückschläge hinnehmen und wurde mit Berichten über Unregelmäßigkeiten überschattet. Wie der Name suggeriert, war das Format von Anfang an dafür gedacht, die nativen, binär codierten, nicht öffentlich bekannten Dateiformate der Office-Produkte Word, Excel und Powerpoint von Microsoft Inc. in einer der Öffentlichkeit zugänglichen Form darzustellen. Als Basis dafür wurde die bereits breit eingeführte XML-Syntax gewählt. Der Standardisierungsprozess bestand darin, die existierenden Fähigkeiten der binären Dokumente in die XML-Syntax abzubilden, einzelne Fähigkeiten zu erweitern, sie zu dokumentieren und die Interoperabilität zwischen Anwendungen zu ermöglichen.

Zum Zeitpunkt der Entstehung von OOXML gab es bereits mehr als 400 Millionen Benutzer, die jedes Jahr geschätzte 40 Milliarden Dokumente mit den genannten Werkzeugen erzeugten. OOXML musste also nicht nur eine enorme Menge von existierenden Dokumenten abbilden können, sondern auch eine neue, breitere Palette von Anwendungen ermöglichen. Beispiele solcher Anwendungen sind: das automatische Erzeugen von Dokumenten aus Geschäftsdaten, das Ausziehen von Daten aus Dokumenten und das Einspeisen in Geschäftsapplikationen, die gezielte und automatisierte Verarbeitung von Dokumenten und viele mehr.

Langzeitaufbewahrung und gesetzliche Vorgaben

Die vielleicht wichtigste Herausforderung des Digitalzeitalters steht unter dem Stichwort Langzeitaufbewahrung. Wir haben uns daran gewöhnt, exponentiell steigende Mengen an Dokumenten zu erzeugen. Noch bis heute koppeln wir, ohne weiter darüber nachzudenken, die digitale Kodierung dieser Information sehr eng an die Programme, mit welchen wir diese Dokumente erzeugen. Die Erfahrung lehrt uns jedoch, dass es außerordentlich schwierig werden kann, solche Dokumente nach zehn oder zwanzig Jahren zu lesen. Wenn überhaupt, dann mit signifikanten Informationsverlusten. Die finanzielle und intellektuelle Investition in diese Dokumente zu bewahren, wird zu einer zwingenden Priorität.

Aber die Mächtigkeit der Dateiformate stellte die Archivare vor große Probleme: Funktionen wie Verschlüsselung, dynamische, sich verändernde Inhalte und Abhängigkeiten von externen Ressourcen wie Schriften sind langfristig nicht handhabbar. Darüber hinaus war eine rasche Lösung gefordert. Mangels Alternative „vertiffte“ man zunächst einfach alle zu archivierenden Dokumente. Grundsätzlich ist auch nichts gegen das TIFF Format einzuwenden. Wie die Bezeichnung „Tagged Image File Format“ aber treffend sagt, handelt es sich um ein Dateiformat, für Rasterbilder, das durch meist proprietäre Funktionen beliebig erweitert werden kann. Auf eine standardisierte Weise bietet TIFF heute Funktionen wie die Durchsuchbarkeit und die Einbettung von Metadaten und digitaler Signatur nicht an. Die Erfahrungen mit TIFF haben aber zur Entwicklung des PDF/A-Formats geführt: Es wurde auf Initiative der AIIM (Association for Information and Image Management), der NPES (National Printing Equipment Association) und der Administration der US-Gerichte speziell für die Bedürfnisse der Archivierung entwickelt.

PDF/A erfüllt alle wichtigen Anforderungen der Archivare wie statische Inhalte, visuell eindeutige und getreue Wiedergabe unabhängig von der Plattform und der Software, keine Bezüge auf externe Quellen, frei von Verschlüsselung und Patentrechten, Durchsuchbarkeit, Einbettung von Metadaten und digitalen Signaturen und viele mehr. Die Vision des digitalen Papiers ist mit PDF/A nun Wirklichkeit geworden. Es sind diese Eigenschaften von PDF/A und die Arbeit vieler Freiwilliger des eigens für dessen Förderung gegründeten PDF/A Competence Center, welche das PDF/A-Format heute zu einem de-facto-Standard für Archivierungen gemacht haben. Dass dies tatsächlich so ist, zeigen die in vielen Ländern erlassenen und noch entstehenden Empfehlungen, Richtlinien und gesetzlichen Vorgaben der Behörden.

So setzt der Schweizerische Bundesrat in seiner „Verordnung über die elektronische Übermittlung im Rahmen eines Verwaltungsverfahrens“ und auch in der „Verordnung über die elektronische Übermittlung im Rahmen von Zivil- und Strafprozessen sowie von Schuldbetreibungs- und Konkursverfahren“ auf das PDF/A Format. In anderen Ländern wie Frankreich, Österreich, Norwegen, Dänemark beginnt PDF/A den öffentlichen Sektor in ähnlicher Weise zu durchdringen. Aber auch die Bundes- und Länderarchive präferieren das PDF/A Format für die Anlieferung von Dokumenten. Dass sich das Format definitiv durchgesetzt hat, zeigen aber letztendlich die vielen Projekte in der Privatwirtschaft, welche nicht durch gesetzliche Regularien vorangetrieben werden, sondern durch nachhaltiges wirtschaftliches Denken.

Interoperabilität und Konversion

Dokumentenstandards behaupten von sich, dass sie die „Interoperabilität“ unterstützen würden. Was heißt das genau? Erschwerend für das Verständnis kommt hinzu, dass sehr unterschiedliche Eigenschaften des Formats gemeint sind. So versteht man einerseits unter diesem Begriff, dass verschiedene Anwendungsprogramme das Dokument gleich darstellen und anderseits, dass Programme die Dokumentenstruktur und die Inhalte gleich interpretieren. Die Güte der Interoperabilität von Dokumentenformaten wird vor allem dann für den Benutzer sichtbar, wenn er ein Dokument von einem Format in ein anderes umwandeln will. Warum ist das so?

Die meisten Dokumentenformate trennen das Layout von der Dokumentenstruktur und dem Inhalt, so auch PDF, ODF und OOXML. Je nach Anwendung ist der eine oder andere Aspekt wichtiger. So ist beispielsweise bei Office-Dokumenten Struktur und Inhalt und bei Druckerzeugnissen das Layout wichtiger. Auch die Phase des Lebenszyklus spielt eine Rolle. So ist während der frühen Phasen der Veränderung eher Inhalt und Struktur gefragt und in den finalen Phasen eher das Layout. Die beschriebenen Dokumentenformate PDF, ODF und OOXML unterscheiden sich bezüglich dieser Aspekte wesentlich. So sind die Stärken von ODF und OOXML hauptsächlich in der Beschreibung der Struktur und der Inhalte zu finden, bei PDF entsprechend im Layout. Dabei ist es nicht so, dass die Formate den jeweils entgegengesetzten Aspekt nicht unterstützen würden – aber eben nur etwas halbherzig. Dies ist keine Überraschung, wenn man berücksichtigt, dass PDF seine Wurzeln in der graphischen Industrie hat. Im Gegensatz dazu sind ODF und OOXML aus den Büroanwendungen heraus entwickelt worden.

Diese Erkenntnisse bestätigen die These, dass PDF – und insbesondere PDF/A – für die finale Fassung von Dokumenten das am besten geeignete Format ist. Dagegen wird wohl kaum jemand PDF als Format für die Bearbeitung von Dokumenten wählen. In diesen Phasen des Lebenszyklus sind klar ODF und OOXML die Favoriten. Die Konsequenzen daraus sind offensichtlich: Die in SharePoint verwalteten Dokumente müssen in PDF/A konvertiert werden, wenn sie langfristig aufbewahrt werden sollen. Die Aufbereitung zum Archivgut – oder auch für den Austausch von Dokumenten zwischen Unternehmen – beinhaltet die inhaltsund layoutgetreue Umwandlung von ODF oder OOXML nach PDF/A.

Dafür ist die SharePoint-Plattform bestens vorbereitet. Als erweiterbare Plattform kann SharePoint mit einem Document Converter Service, manchmal auch Rendition Service genannt, ergänzt werden, der sowohl automatisiert als auch auf Benutzeranfrage hin die Umwandlung von ODF- oder OOXML-Dokumenten nach PDF/A vornimmt und damit das Dokument gleichzeitig als aufbewahrungswürdig kennzeichnet. Weitere automatisierte Hintergrundprozesse steuern das Ablegen der Dokumente ins Archiv und stellen sicher, dass die Dokumente in die nahtlos freie Textsuche von SharePoint integriert sind.

Um eine einwandfreie Abbildung des Layouts der Dokumente sicherzustellen, muss der Document Converter Service die nativen Büroanwendungen für die Konversion heranziehen. Für ODF ist dies OpenOffice und für OOXML entsprechend Microsoft Office. Denn eine Studie des Fraunhofer FOKUS Instituts hat gezeigt, dass die Interoperabilität zwischen den Formaten ODF und OOXML in vielen Fällen schwierig oder sogar unmöglich sein kann. Zudem führen die vielen Mehrdeutigkeiten der Beschreibungen in den Standards dazu, dass eine eindeutige Wiedergabe des Layouts in vielen Fällen nicht gegeben ist.

Die Konversion in PDF/A ist notwendig

Die SharePoint-Plattform hat sich in sehr vielen Organisationen erfolgreich etabliert und steigert die Produktivität der Zusammenarbeit von „Informationsarbeitern“. SharePointApplikationen steuern den Lebenszyklus der Dokumente in einer Organisation, von der Erzeugung bis zur Aufbewahrung. Das Dokumentenformat spielt dabei eine bedeutende Rolle, weil Dokumente länger leben können als die erstellenden, bearbeitenden und aufbewahrenden Systeme. Deshalb muss das Format offen, dokumentiert, herstellerunabhängig und standardisiert sein. Ein offenes Format ist langfristig wesentlich ökonomischer als offene Plattformen und Applikationen (Open Source). Dies mag mit einer der Gründe für die breite Akzeptanz von SharePoint und Microsoft Office sein.

Aber nicht jedes Format ist für jede Phase des Lebenszyklus gleich gut geeignet: ODF und OOXML sind vor allem für die Phasen des „Arbeitsdokuments“ angeraten – für „finale Dokumente“ ist jedoch PDF/A oft ein Muss. Das Dokument muss also beim Übergang der beiden Phasen von ODF oder OOXML nach PDF/A konvertiert werden. Dafür gibt es professionelle Document Converter Service Applikationen, welche auf SharePoint aufsetzen. Sie automatisieren mit Hilfe der SharePoint-Plattform den Konversionsprozess und stellen sicher, dass die freie Textsuche auch für PDF/ A-Dokumente für den Benutzer transparent gewährleistet ist.

Document Converter Service-Lösungen sind in Organisationen bereits erfolgreich eingeführt. So auch bei der größten Anbieterin für die finanzielle Vorsorge in der Schweiz, welche über 700 Vorsorgeberaterinnen und Vorsorgeberater in mehr als 40 Agenturen beschäftigt. Hier das Szenario: Microsoft OfficeDokumente aus laufenden Geschäftsprozessen – eigene, aber auch von Kunden – werden in SharePoint Server verwaltet und archiviert. In der Vergangenheit war TIFF das Dateiformat für die Archivierung. Das Unternehmen stellte auf PDF/A um, damit die Durchsuchbarkeit der Dokumente und, durch gleichzeitiges Aufbringen einer digitalen Signatur, auch die Nachvollziehbarkeit gewährleistet ist. Die Microsoft Office-Dokumente werden nun bei Abschluss des Geschäftsfalles in das PDF/A Format konvertiert und, mit Metadaten versehen, dem Archiv zugeführt. Die Benutzer steuern die Umwandlung der Dokumente direkt aus SharePoint und können auf die PDF/A-Dokumente über die Standard-Benutzeroberfläche zugreifen. Parallel dazu werden die Dokumente in ein autonomes und robustes Zweitarchiv – auch auf SharePoint basierend – gespiegelt, um sie langfristig und vor nicht autorisierten Zugriffen geschützt aufzubewahren. Die digitale Signatur schützt vor nachträglichen Veränderungen und stellt die Authentizität der Dokumente sicher.