PDF Tools AG

Originalquelle

BIT Magazin
EnglishAutor: Nadine Schuppisser

Selbst im Zeitalter elektronischer Rechnungen, Online-Shops und E-Commerce ist Papier noch nicht obsolet geworden: Dokumente wie Rechnungen, Steuerformulare, Serviceberichte und Verträge werden weiterhin auf Papier erstellt, per Post versendet und in den Briefkasten empfangen.

Sobald die Papierdokumente im Unternehmen oder bei der Behörde ankommen, sind die IT-Systeme für die Verarbeitung der Informationen verantwortlich – alles auf Papier muss gescannt, in ein maschinenlesbares Format vorbereitet, gespeichert und archiviert werden. Dokumente werden normalerweise in den einzelnen Abteilungen mit multifunktionalen Geräten (ein MFP mit zusätzlichen Druck- und Faxfunktionen) oder zentral mit einem Hochgeschwindigkeitsscanner gescannt.

Bei den meisten Unternehmen sammeln sich Scans an verschiedenen Standorten: im zentralen Büro, an Scan-Stationen in den Büroabteilungen und auf mobilen Geräten, z. z.B. bei Kundenbesuchen. Empfangene Faxnachrichten sind nichts anderes als ein Bild gescannter Informationen.

Von einem Bild zu einem standardisierten Dokument

Beim Scannen eines Dokuments wird zuerst eine Faksimile als Bilddatei in Rasterformaten wie TIFF und JPEG erstellt. Ein Rasterdokument ist jedoch einfach ein Bild ohne zusätzliche Informationen. Texte und Informationen, die in Barcodes enthalten sind, müssen nach dem Scannen über die Texterkennung (OCR – optische Zeichenerkennung) aus dem Bild extrahiert werden. Idealerweise werden der Text und das Bild dann zusammen im selben Dokument gespeichert. Das vereinfacht die Datenspeicherung und bewahrt sowohl das Erscheinungsbild als auch die Informationen des originalen Dokuments.

PDF/A hat sich als standardisiertes Speicherformat für die langfristige Archivierung gescannter und elektronisch generierter Dokumente etabliert. Der PDF/A-Standard unterstützt die Speicherung von Bild- und Textinformationen im selben Dokument. Die Dokumente können mit der Volltextsuche durchsucht werden.

PDF/A verwendet eine leistungsstarke Kompressionstechnik für die Bildinformationen, wodurch die ursprüngliche Dateigröße erheblich reduziert wird, ohne Informationen zu verlieren. Dies ist besonders wichtig, wenn das Dokument zusätzlich zu Graustufenbildern Farbbilder enthält und die Farbinformationen für die weitere Verwendung bestimmt sind.

PDF/A erlaubt es auch, Metadaten wie Klassifizierungsinformationen direkt im Dokument zu speichern. XMP (erweiterbare Metadatenplattform) wird hierfür verwendet – wie bei PDF/A ist es als eigener ISO-Standard definiert. PDF/A bietet auch eine Option für digitale Signaturen, um die Authentizität der Dokumente und die Integrität der Inhalte zu gewährleisten. Insgesamt bietet PDF/A die Sicherheit eines internationalen Dokumentenstandards, der langfristige Stabilität garantiert und eine umfassende Palette von Funktionen aufweist.

Lokales Scannen, zentrale Verarbeitung

Das Scannen stellt keine großen Anforderungen an Hardware und Software in Bezug auf die Leistung. Grundsätzlich könnten Scans mit einer einfachen Digitalkamera durchgeführt werden. Die folgenden Schritte erfordern jedoch viel mehr Rechenleistung und Intelligenz – Bildkompression, OCR und Konvertierung in PDF/A benötigen Zeit und Mühe. Vor allem sind zwei gegensätzliche Bedürfnisse zu berücksichtigen: Zuverlässige Texterkennung erfordert die höchstmögliche Bildqualität. Das erhöht den Platzbedarf für die Speicherung.

Natürlich ist es das Ziel, das Datenvolumen beim Speichern von Dateien auf ein Minimum zu reduzieren. Software, die beide Anforderungen erfüllt, stellt hohe Anforderungen an die Rechenleistung des Computers, insbesondere wenn eine große Menge gescannter Dokumente verarbeitet werden muss. Ein weiterer Aspekt, den man beachten muss, ist, dass Informationen von anderen Arbeitsplätzen und unterschiedlichen IT-Systemen benötigt werden, um Indizes, Klassifizierungsdaten und andere Metadaten sowie digitale Signaturen einzufügen. Die dezentralen Daten müssen kombiniert werden, um das PDF/A-Dokument zu erstellen.

Leistungsintensive Operationen

Die Lösung für beide Probleme ist ein zentraler Scan-Server – ein Beispiel ist der 3-Heights Scan to PDF Server von PDF Tools AG. Dieser Server empfängt die gescannten Bilddateien, analysiert die Dokumente und generiert ein PDF/A-Dokument, in dem alle Text- und Bildinformationen auf die richtige Größe komprimiert sind. Das Dokument kann auch mit einem Zeitstempel oder einer digitalen Signatur versehen werden. Die konsolidierten Informationen stehen jetzt in einem standardisierten, qualitativ hochwertigen Format zur Verfügung, das sowohl für menschliche Leser als auch für die automatisierte Verarbeitung mit IT-Anwendungen geeignet ist.

Ein zentraler Scan-Server vereinfacht auch die Softwareverteilung und -wartung. Umfassende Scansoftware mit integrierter OCR-Funktion muss nicht individuell an den Scan-Stationen ausgerollt, konfiguriert und gewartet werden. Eine elementare Anwenderanwendung genügt zur Bildaufnahme. Probleme, die während komplexerer Verarbeitungsschritte auftreten, müssen nicht individuell an der jeweiligen Arbeitsstation gelöst werden. Der Dienst des Scan-Servers nutzt stattdessen Testinfrastruktur, um alle Probleme zu analysieren und Fehler zu beheben. Der Dienst wird dann in den produktiven Betrieb überführt.

Um sicherzustellen, dass der Scan-Server auf die jeweilige Umgebung abgestimmt ist und bei Bedarf skaliert werden kann, wenn er von mehr als einem Computer genutzt wird, verteilt der 3-Heights Scan to PDF Server die Aufgaben auf mehrere Subsysteme:

Der Scan-Server erhält Aufträge zur Konvertierung ins PDF/A-Format, delegiert die Verantwortung für die Texterkennung an den OCR-Server und kombiniert die OCR-Ergebnisse, das gescannte Bild und die Metadaten zu einem vollständigen PDF/A-Dokument.
Der OCR-Server erhält Aufträge vom Scan-Server zur Text- und Barcodeerkennung, bereitet die Bildinformationen durch Prozesse wie das Begradigen von Texten und das Entfernen von Mängeln vor, um die bestmöglichen Bedingungen für die Texterkennung zu schaffen, teilt das Dokument in Text-, Barcode- und Bildfelder auf und führt den Texterkennungsprozess durch.

Der Server bietet zwei zusätzliche Dienste für lokal erzeugte Scans an: Ein Watchfolder-Service überträgt alle in bestimmten Verzeichnissen gespeicherten Dateien automatisch an den Scan-Server zur automatischen Verarbeitung. Der Scan-Server nutzt einen Webdienst, um Aufträge zu empfangen, die über eine webbasierte Anwendung erstellt wurden, und sendet dann die konvertierten Dokumente zurück an den Auftraggeber. Der Scan-Server kann auch andere nützliche Aufgaben übernehmen, einschließlich der Überprüfung der erzeugten PDF/A-Dokumente auf Konformität mit dem ISO-Standard, das Taggen der Dokumente mit einem Wasserzeichen und das Kombinieren einzelner Dokumente, die zum selben Geschäftsvorfall gehören, in ein Gesamtdokument.

Ein zentraler Scan-Server ist eine effiziente, facettenreiche Lösung für die Verarbeitung großer Mengen gescannter Dokumente aus verschiedenen Quellen. Er konvertiert die gescannten Bilddaten in standardisierte, durchsuchbare PDF/A-Dokumente, die mit Informationen gefüllt sind, verringert den Arbeitsaufwand an den Scan-Stationen bei der Verarbeitung von Informationen, unterstützt die Integration anderer IT-Systeme und hilft, einen konsistenten, unternehmensweiten Dokumentenstandard aufrechtzuerhalten.

Vom Scan zur Information – hohe Qualität bei geringem Datenvolumen

Originalquelle

BIT Magazin

Von einem Bild zu einem standardisierten Dokument

Lokales Scannen, zentrale Verarbeitung

Leistungsintensive Operationen

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.

Geschrieben von Nadine Schuppisser

Grüezi! Wie können wir helfen?