Vom Scan zur Information - hohe Qualität bei geringem Datenvolumen
Ein zentraler Scan-Server-Dienst ermöglicht es, grosse Mengen von Papierdokumenten schnell und effizient in elektronische Dokumente umzuwandeln, für die Verarbeitung vorzubereiten und in einem Langzeitarchiv abzulegen. Ein Scanserver, wie der 3-Heights™ Scan to PDF Server der PDF Tools AG, konvertiert gescannte Dateien und dazugehörige Indexdateien in das standardisierte Dateiformat PDF/A.
Ursprüngliche Quelle
Auch im Zeitalter der elektronischen Rechnungen, der Online-Shops und des E-Commerce hat Papier noch nicht ausgedient: Dokumente wie Rechnungen, Steuerformulare, Dienstleistungsberichte und Verträge werden immer noch auf Papier erstellt, mit der Post verschickt und im Briefkasten empfangen.
Sobald die Papierdokumente im Unternehmen oder in der Behörde ankommen, sind die IT-Systeme für die Verarbeitung der Informationen zuständig - alles auf Papier muss gescannt, in einem maschinenlesbaren Format aufbereitet, gespeichert und archiviert werden. Gescannt werden die Dokumente in der Regel in den einzelnen Abteilungen mit Multifunktionsgeräten (ein MFP mit zusätzlicher Druck- und Faxfunktion) oder zentral mit einem Hochleistungsscanner.
In den meisten Unternehmen fallen Scans an verschiedenen Orten an: in der Zentrale, an Scanstationen in Büroabteilungen und auf mobilen Geräten, z. B. bei Kundenbesuchen. Die empfangenen Faxnachrichten sind nichts anderes als ein Abbild der gescannten Informationen.
Von einem Bild zu einem standardisierten Dokument
Beim Scannen eines Dokuments wird ein Faksimile zunächst als Bilddatei in Rasterformaten wie TIFF und JPEG erstellt. Bei einem Rasterdokument handelt es sich jedoch lediglich um ein Bild ohne jegliche Zusatzinformationen. In Strichcodes enthaltene Texte und Informationen müssen nach dem Scannen mittels Texterkennung (OCR - optical character recognition) aus dem Bild extrahiert werden. Idealerweise werden Text und Bild dann zusammen in einem Dokument gespeichert. Dies vereinfacht die Datenspeicherung und bewahrt sowohl das Erscheinungsbild als auch die im Originaldokument enthaltenen Informationen.
PDF/A hat sich als standardisiertes Speicherformat für die Langzeitarchivierung von gescannten und elektronisch erzeugten Dokumenten etabliert. Der PDF/A-Standard unterstützt die Speicherung von Bild- und Textinformationen im selben Dokument. Die Dokumente können über eine Volltextsuche durchsucht werden.
PDF/A verwendet ein leistungsfähiges Komprimierungsverfahren für die Bildinformationen, wodurch die ursprüngliche Dateigröße ohne Informationsverlust erheblich reduziert wird. Dies ist besonders wichtig, wenn das Dokument neben Graustufenbildern auch Farbbilder enthält und die Farbinformationen für eine weitere Verwendung bestimmt sind.
PDF/A erlaubt auch die Speicherung von Metadaten wie Klassifizierungsinformationen direkt im Dokument. Dazu wird XMP (Extensible Metadata Platform) verwendet, das wie bei PDF/A als eigener ISO-Standard definiert ist. PDF/A verfügt zudem über die Möglichkeit der digitalen Signatur, um die Authentizität der Dokumente und die Integrität der Inhalte zu gewährleisten. Insgesamt bietet PDF/A die Sicherheit eines internationalen Dokumentenstandards, der langfristige Stabilität garantiert und einen umfassenden Funktionsumfang aufweist.
Lokal scannen, zentral verarbeiten
Das Scannen stellt nur geringe Anforderungen an die Hard- und Software hinsichtlich der Leistungsfähigkeit. Im Prinzip könnten Scans mit einer einfachen Digitalkamera durchgeführt werden. Die folgenden Schritte erfordern jedoch deutlich mehr Rechenleistung und Intelligenz - Bildkomprimierung, OCR und Konvertierung nach PDF/A erfordern Zeit und Aufwand. Dabei sind vor allem zwei gegensätzliche Anforderungen zu berücksichtigen: Eine zuverlässige Texterkennung erfordert eine möglichst hohe Bildqualität. Dies erhöht den Speicherplatzbedarf.
Ziel ist es natürlich, das Datenvolumen bei der Speicherung von Dateien so gering wie möglich zu halten. Eine Software, die beiden Anforderungen gerecht wird, stellt hohe Anforderungen an die Rechenleistung des Computers, insbesondere dann, wenn eine große Menge an gescannten Dokumenten verarbeitet werden muss. Ein weiterer Aspekt ist, dass für die Einbettung von Index-, Klassifizierungs- und anderen Metadaten sowie digitalen Signaturen Informationen von anderen Arbeitsplätzen und unterschiedlichen IT-Systemen benötigt werden. Die dezentralen Daten müssen zu einem PDF/A-Dokument zusammengeführt werden.
Leistungsintensive Operationen
Die Lösung für beide Probleme ist ein zentraler Scan-Server - ein Beispiel ist der 3-Heights Scan to PDF Server von PDF Tools AG. Dieser Server empfängt die gescannten Bilddateien, analysiert die Dokumente und generiert ein PDF/A-Dokument mit allen Text- und Bildinformationen, das auf die richtige Grösse komprimiert ist. Das Dokument kann zusätzlich mit einem Zeitstempel oder einer digitalen Signatur versehen werden. Die konsolidierten Informationen liegen nun in einem standardisierten, qualitativ hochwertigen Format vor, das sich sowohl für menschliche Leser als auch für die automatisierte Verarbeitung mit IT-Anwendungen eignet.
Ein zentraler Scan-Server vereinfacht zudem die Softwareverteilung und -pflege. Eine umfangreiche Scansoftware mit integrierter OCR-Funktion muss nicht individuell an den Scanstationen ausgerollt, konfiguriert und gepflegt werden. Für die Bildaufnahme genügt eine elementare Bedienerapplikation. Probleme, die bei komplexeren Verarbeitungsschritten auftreten, müssen nicht individuell am jeweiligen Arbeitsplatz behoben werden. Stattdessen nutzt der Scan-Server-Dienst eine Testinfrastruktur, um alle Probleme zu analysieren und eventuelle Fehler zu beheben. Anschließend wird der Dienst in den produktiven Betrieb überführt.
Damit der Scan Server auf die jeweilige Umgebung zugeschnitten ist und bei Bedarf bei der gemeinsamen Nutzung durch mehrere Computer skaliert werden kann, verteilt der 3-Heights Scan to PDF Server die Aufgaben auf mehrere Subsysteme:
Der Scan-Server nimmt Aufträge zur Konvertierung in das PDF/A-Format entgegen, delegiert die Texterkennung an den OCR-Server und kombiniert die OCR-Ergebnisse, das gescannte Bild und die Metadaten zu einem vollständigen PDF/A-Dokument.
Der OCR-Server erhält vom Scan-Server Aufträge zur Text- und Barcode-Erkennung, bereitet die Bildinformationen durch Prozesse wie Begradigung von Texten und Entfernung von Fehlern auf, um die bestmöglichen Bedingungen für die Texterkennung zu schaffen, teilt das Dokument in Text-, Barcode- und Bildfelder auf und führt die Texterkennung durch.
Der Server bietet zwei zusätzliche Dienste für lokal erstellte Scans: Ein Dienst für überwachte Ordner überträgt alle in bestimmten Verzeichnissen gespeicherten Dateien zur automatischen Verarbeitung an den Scan-Server. Der Scan-Server nutzt einen Webdienst, um Aufträge zu empfangen, die über eine webbasierte Anwendung erstellt wurden, und sendet die konvertierten Dokumente dann an den Auftragsanbieter zurück. Der Scan-Server kann darüber hinaus weitere nützliche Aufgaben übernehmen, etwa die Validierung der erzeugten PDF/A-Dokumente auf Konformität mit dem ISO-Standard, die Kennzeichnung der Dokumente mit einem Wasserzeichen und die Zusammenführung von Einzeldokumenten, die zum selben Geschäftsfall gehören, zu einem Gesamtdokument.
Ein zentraler Scan-Server ist eine effiziente und vielseitige Lösung für die Verarbeitung großer Mengen an gescannten Dokumenten aus unterschiedlichen Quellen. Er wandelt die gescannten Bilddaten in standardisierte, durchsuchbare und informationsreiche PDF/A-Dokumente um, entlastet die Scan-Stationen bei der Verarbeitung von Informationen, unterstützt die Integration anderer IT-Systeme und hilft, einen unternehmensweit einheitlichen Dokumentenstandard zu erhalten.