PDF Tools AG - Homepage
   
PDF Tools > News & Events > Publications > du scan à l'information

Une qualité d’image élevée pour un volume de données restreint, du scan à l’information

scan serveur infographique

Avec le service central Scan Server, de grandes quantités de documents papier peuvent être converties de manière élégante en documents électroniques, préparées pour le traitement ultérieur et déposées dans des archives à long terme. Un serveur de numérisation comme celui proposé par PDF Tools AG avec le « 3-Heights™ Scan to PDF Server » convertit les fichiers scannés et les fichiers d’indexation qui leur appartiennent dans le format de fichier standardisé PDF/A.

À l’époque de l’e-facturation, des guichets en ligne et de l’e-commerce, le papier reste encore totalement d’actualité : des documents tels que les factures, les formulaires pour les impôts, les rapports de service et les contrats sont souvent imprimés sur papier, envoyés par courrier et réceptionnés par courrier. Les systèmes informatiques sont responsables du traitement des informations au plus tard au sein de l’entreprise ou de l’administration – ce qui est sur le papier doit être scanné, mis sous une forme lisible par une machine, enregistré et archivé. Généralement, la numérisation est effectuée directement dans les services avec des appareils multifonctions (MFP avec fonction fax et impression) ou de manière centralisée avec des scanners à haute performance.

Dans la plupart des entreprises, les scans sont effectués à divers endroits : à l’entrée centrale, au bureau de poste, aux stations de scanner dans les services ainsi que sur des appareils mobiles, p. ex lors de visites chez les clients. De même, les fax reçus ne sont pas autre chose que des informations visuelles scannées.

De l’image au document standardisé

Lors de la numérisation, on obtient d’abord toujours un fac-similé sous la forme d’un fichier image. Pour ce faire, des formats matriciels tels que TIFF ou JPEG sont employés. Un document matriciel n’est toutefois qu’une image sans informations supplémentaires. Les textes ainsi que les informations contenues dans les codes-barres doivent être extraits de l’image après la numérisation par des systèmes de reconnaissance de texte (OCR, optical character recognition).

Dans l’idéal, le texte et l’image sont ensuite enregistrés ensemble dans le même document. Cela facilite le classement et sécurise aussi bien l’apparence que le contenu du document d’origine. PDF/A s’est établi comme étant le format de choix pour le classement standardisé et l’archivage à long terme des documents numérisés ou générés électroniquement.

Le standard PDF/A prend en charge l’enregistrement de l’image et du texte dans le même document. Des recherches en texte intégral peuvent ainsi être effectuées dans les documents. Pour les images, PDF/A travaille avec des processus de compression performants. Ainsi, la taille de l’image d’origine est considérablement réduite sans perte d’informations.

Cela a une importance particulière lorsque le document contient non seulement des images en noir et blanc mais aussi des images en couleur et que les couleurs ont besoin d’être conservées pour une utilisation ultérieure. De plus, PDF/A permet d’enregistrer des métadonnées, par exemple les informations de classement, directement dans le document.

Pour cela, le format XMP (Extensible Metadata Platform) est utilisé ; tout comme PDF/A, il est défini comme un standard ISO. La signature numérique est une autre fonctionnalité offerte par PDF/A ; elle vise à garantir l’authenticité des documents et l’intégrité des contenus. Dans l’ensemble, PDF/A offre la sécurité d’une norme documentaire internationale, fonctionnelle, complète et orientée sur la stabilité à long terme.

Scanner de façon décentralisée, traiter de façon centralisée

En soi, la numérisation ne pose pas d’exigences particulièrement élevée à l’équipement et aux logiciels. En principe, les « scans » peuvent déjà être produits par un simple appareil photo numérique. Les étapes de traitement suivantes exigent nettement plus de puissance de calcul et d’intelligence. La compression des images, l’OCR et la conversion en PDF/A sont des processus relativement complexes. D’autant plus qu’il faut tenir compte dans ce cas de deux besoins contradictoires : une reconnaissance de texte fiable demande une qualité d’image la plus élevée possible.

Cela implique une augmentation des besoins de stockage. Par contre, pour le classement, on souhaite avoir un volume de données le plus faible possible. Les logiciels qui doivent répondre aux deux demandes ont des exigences très élevées au niveau de la puissance de calcul – en particulier lorsqu’un grand volume de documents numérisés doit être traité. À cela s’ajoute un autre aspect : des informations en provenance d’autres stations de travail et de divers systèmes informatiques sont souvent requises pour l’intégration de données de classement, d’indexation et d’autres métadonnées ainsi que des signatures numériques. Ces données décentralisées doivent être rassemblées pour la création du document PDF/A.

Des opérations nécessitant beaucoup de puissance

La solution pour ces deux problèmes est un serveur central de numérisation – le « 3-Heights Scan to PDF Server » de la maison PDF Tools AG en est un exemple. Il réceptionne les images numérisées, analyse les documents et crée un document PDF/A avec toutes les informations textuelles et visuelles et avec une compression appropriée. À titre facultatif, il marque le document avec un jeton d’horodatage ou une signature numérique. Les informations saisies sont ainsi mises à disposition en très bonne qualité aussi bien pour les lecteurs humains que pour un traitement automatisé par des applications informatiques.

En outre, un serveur de numérisation central facilite la répartition des logiciels et la maintenance. Il n’est pas nécessaire de déployer, configurer et entretenir des logiciels complets de numérisation avec fonctionnalité OCR intégrée sur les stations de scanner. Une application opérationnelle élémentaire pour l’acquisition des images suffit. Les problèmes liés aux étapes de traitement plus complexes ne doivent pas être individuellement réglés sur les postes de travail. À la place, le service de serveur de numérisation est implémenté sur une infrastructure de test où tous les problèmes peuvent être analysés au préalable et où les erreurs peuvent être corrigées. Ensuite, le service passe en phase de production.

Pour que le serveur de numérisation puisse être adapté de façon optimale à son environnement respectif et être modulé en cas de besoin par une répartition sur plusieurs ordinateurs, les tâches du « 3-Heights Scan to PDF Server » sont réparties sur plusieurs sous-systèmes :

  • Le serveur de numérisation proprement dit réceptionne les tâches de conversion en PDF/A, délègue la reconnaissance textuelle au serveur OCR et regroupe les résultats de l’OCR, l’image numérisée et les métadonnées pour former le document PDF/A final.
     
  • Le serveur OCR réceptionne les tâches pour la reconnaissance des textes et des codes-barres, prépare les informations visuelles par des opérations telles que le redressement et l’élimination des défauts pour une reconnaissance de texte optimale, divise le document en zones de texte, de code-barres et d’image et effectue la reconnaissance.

Pour les scans générés de manière décentralisée, le serveur offre deux services supplémentaires : un watched folder service transmet tous les fichiers qui ont été déposés dans un répertoire particulier au serveur de numérisation pour la poursuite automatique du traitement. À l’aide d’un service web, le serveur de numérisation réceptionne les tâches qui ont été saisies au moyen d’une application basée sur le web et renvoie les documents convertis au demandeur. De plus, le serveur de numérisation peut prendre en charge d’autres tâches utiles, y compris la validation des documents PDF/A générés par rapport à leur conformité avec le standard ISO, le marquage des documents avec un filigrane et la combinaison en un document de synthèse de divers documents individuels appartenant à la même affaire.

Un serveur central de numérisation constitue une solution efficace et polyvalente lorsque de grands volumes de documents numérisés provenant de diverses sources doivent être traités. Il convertit les images numérisées en documents standardisés riches en information et dans lesquels une recherche peut être effectuée, il soulage les stations de scanner des étapes de traitement les plus exigeantes en termes de performance, il soutient l’intégration d’autres systèmes informatiques et il permet de se conformer à une norme documentaire uniforme dans l’ensemble de l’entreprise.

Suivez-nous sur

 

Abonnement newsletter

 

Information de l'article

source d'origine: BIT, 2014-6
Auteur: Nadine Schuppisser

Plus d'information

Livre blanc: Le 3-Heights™ Scan to PDF Server – bases et utilisation

Image detection in scanned images

Scan to PDF/A - some insights

Copyright 2001-2016 PDF Tools AG

Sitemap | Privacy | Legal | Masthead