Dr. Hans Bärfuss, Founder & CEO of PDF Tools AG

Information de l'article

Source d'origine (allemand): DOK, 2016-02 

Auteur: Dr. Hans Bärfuss

Publication: DOK.magazin


Pour formater confortablement et bien

Le serveur de numérisation pour l’archivage numérique à long terme

Remplir des locaux sans fenêtres avec des documents papier et employer des collaborateurs pour rechercher des documents papier sont devenus des facteurs de temps et de coût que plus personne n’a envie de supporter. « Il nous faut une archive numérique », peut-on entendre dans les couloirs des directions des entreprises de toutes tailles. Mais comment y parvenir ? Laissez faire les fabricants de scanners, disent les uns. Il en faut plus que cela, disent les autres.

A-t-on besoin de plus d’un scanner?

La numérisation de documents papier dans le service courrier d’une entreprise fait désormais partie du quotidien. Selon le type et la quantité des documents papier, on utilise pour cela des multicopieurs (MFP) ou des scanners haute performance.

La plupart du temps, les images scannées sont acquises au format TIFF, en noir et blanc, comme le sont les fax. Ce n’est que pour des utilisations spéciales, comme les chèques ou les photos pour papiers d’identité, que les données sont acquises en couleur. On renonce souvent à la numérisation en couleur, car soit les données TIFF en résultant seraient trop lourdes, soit la compression JPEG réduirait trop visiblement la qualité d’image.

Une bonne qualité d’image est toutefois une condition importante pour la qualité de la reconnaissance du texte. Et pour obtenir un taux de compression élevé tout en préservant une bonne qualité d’image, il faut une machine dotée d’une bonne puissance de calcul, ce qui n’est pas le cas de la plupart des MFP. Pour cela, un logiciel de numérisation séparé offre des avantages déterminants.

Les opérations de traitement telles que la reconnaissance de texte, la compression, la création de PDF/A et la signature numérique ne peuvent généralement pas être réalisées par le scanner seul. En effet, des métadonnées sont souvent ajoutées par la suite par un poste d’indexation. Cette étape brise le sceau de la signature numérique et lui fait perdre sa valeur. C’est aussi pour cela qu’un logiciel distinct offre un avantage décisif.

PDF/A – un standard universel pour les documents

La norme PDF/A s’est aujourd’hui largement imposée dans les utilisations liées à la réception de courrier. Les principaux avantages du PDF/A par rapport aux formats plus classiques comme TIFF et JPEG sont les suivants : 

  • Format unique
    PDF/A est tout aussi bien conçu pour le stockage de documents scannés que de documents créés numériquement.
  • Taux de compression élevé
    la norme PDF/A supporte les technologies de compression les plus modernes et les plus efficaces, et permet ainsi de réduire la taille des images couleur.
  • Reconnaissance de texte
    grâce à l‘intégration de textes issus de la reconnaissance optique, il est possible de permettre des recherches dans les documents PDF/A scannés.
  • Intégration des métadonnées
    pour que le document et ses métadonnées forment une unité indivisible, les métadonnées sont désormais intégrées au document PDF/A. PDF/A utilise pour leur stockage le format Extensible Metadata Platform (XMP), qui est défini par une norme ISO indépendamment de PDF/A.
  • Signature numérique 
    afin de garantir l’intégrité et l’authenticité des documents créés, il est possible d’apposer une signature numérique au format normalisé PAdES sur le document PDF/A. La signature numérique est une forme de signature électronique qui peut remplacer la signature manuscrite si les conditions légales sont remplies (lois nationales sur les signatures).

Il est possible de profiter de tous ces avantages sur des documents TIFF, mais seulement, sous la forme d’extensions propriétaires, car la norme TIFF seule n’offre pas pour cela de solution pour ces besoins.

les avantages de PDF/A par rapport à TIFF
ExigenceTIFFPDF/A
Lisibilité sur le long terme++
Précision de la reproduction++
Consistance des donnéesTags propriétaires pour métadonnées+
Authenticité / IntégritéAvec signatures détachées+
Mémoire nécessaireMémoire nécessaire noir et blanc: +
Couleur: -
+
Recherche dans le texteTags propriétaires pour texte OCR+
Expérience sur le long terme++

Quelles sont les capacités d’un serveur de numérisation ?

Le 3-Heights™ Scan to PDF Server est un service central qui convertit les données numérisées partout dans l’entreprise et leurs données d’indexation au format standardisé PDF/A. Pour ce faire, le serveur se charge de toutes les tâches que les postes de numérisation décentralisés peuvent lui déléguer. Les opérations particulièrement indiquées sont celles qui ne demandent aucune interaction de la part de l’utilisateur ou qui pénalisent l’efficacité des postes de numérisation locaux par des fonctionnalités exigeantes en termes de performance (OCR, compression).

Les fonctionnalités principales de ce service sont les suivantes : 

  • Reconnaissance de texte et de codes-barres: 
    il doit être possible d’effectuer des recherches dans les fichiers images scannés. Le service peut utiliser le service de reconnaissance de texte 3-Heights™ OCR Service pour reconnaître le texte du fichier image et intégrer ces données de manière à pouvoir y effectuer des recherches. Les codes-barres reconnus peuvent être utilisés de plusieurs manières : dans la recherche texte, comme partie des métadonnées intégrées et pour le pilotage du traitement (nom du fichier créé, séparation des pages, etc.).
  • Compression:
    les images couleur seront découpées en plusieurs couches et fortement compressées sans perte visible grâce à la technologie MRC (Mixed Raster Content).
  • Intégration des métadonnées:
    la norme PDF/A prévoit l’intégration des métadonnées sous la forme de packs XMP dans le document. Le service propose cette fonction.
  • Création d’un fichier PDF/A:
    le service crée des documents d’une ou de plusieurs pages selon la norme ISO 19005. Tous les formats prévus par la norme (PDF/A-1, PDF/A-2 et PDF/A-3) sont supportés.
  • Signature numérique:
    la signature peut prendre la forme d’une signature électronique avancée ou qualifiée, être conçue pour l’archivage à long terme ou uniquement pour l’échange ou encore, au choix, prendre la forme d’un tampon temporaire au lieu d’une signature personnelle. Le service peut utiliser une infrastructure de cryptographie (jeton d’authentification, HSM) via une interface standard (PKCS#11) pour créer des signatures numériques.
     

Les opérations se déroulent généralement comme suit: 

  • Acquisition de l’image: 
    l’opérateur de numérisation procède à la numérisation et crée un fichier TIFF en couleur. Le scanner stocke généralement les données dans un dossier dédié. Les fax sont reçus par la machine et enregistrés dans un dossier spécial au format TIFF et en noir et blanc.
  • Classification manuelle:
    s’il le souhaite et selon la procédure, l’opérateur de numérisation peut procéder à une classification. Pour ce faire, il indique au scanner que les images doivent être stockées dans des fichiers précis (p. ex. un dossier pour les factures, un pour les bons de livraison). Il peut aussi ajouter des feuilles de codes-barres dédiées qui serviront au tri et à la classification des documents, ou bien saisir un minimum de données d’indexation.
  • Segmentation et compression:
    l’image couleur obtenue est dissociée en plusieurs éléments, comme l’arrière-plan, le texte et les images. Chaque type d’élément sera réduit en taille par des processus de compression spécifiques. Ce procédé appelé MRC permet à des documents en couleur d’être compressés à des tailles concurrentielles.
  • Reconnaissance de texte et de codes-barres:
    les images sont ensuite traitées par OCR. L‘image est redressée et débarrassée de ses taches avant la reconnaissance du texte et des codes-barres.
  • Métadonnées:
    les informations issues de la classification manuelle, des codes-barres et d’autres sources sont compilées au format de métadonnées standardisé XMP.
  • Création du PDF/A: 
    les images traitées, le texte reconnu et les métadonnées, ainsi que le profil ICC du scanner, sont assemblés en un document PDF/A. Il est également possible de créer un fichier d’indexation qui ne comprend que les métadonnées.
  • Signature numérique:
    il est possible d’ajouter une signature numérique pour assurer l’intégrité et l’authenticité des révisions du document.
  • Validation:
    la conformité du document au format PDF/A et la validité de la signature numérique peuvent également être vérifiées.

En outre, le service propose toute une palette de fonctions complémentaires.

Pour quoi ce service est-il utilisé?

Un Scan-Server est utilisé pour réaliser les tâches suivantes:

  • Numérisation du courrier papier:
    archivage électronique des documents papier qui arrivent au courrier d’une entreprise.
  • Numérisation des fax:
    archivage électronique de tous les échanges de fax entre une entreprise et ses partenaires commerciaux.
  • Migration des archives:
    migration d’archives papier en une archive électronique au format PDF/A.
  • Utilisation web/mobile:
    utilisation du service centralisé dans des applications clientserveur via un service Web.
  • Intégration aux applications spécifiques des entreprises:
    utilisation du système central pour la création de documents PDF/A via une interface de programmation (API) à partir d’applications spécialisées qui créent des données TIFF ou JPEG.
TOP

Conclusion

Construire une archive numérique à long terme est devenu indispensable pour les grandes entreprises. Mais cela en vaut également la peine pour les petites et moyennes entreprises souhaitant économiser des coûts de stockage et de personnel.

Un processus de numérisation mûrement réfléchi aide à se débarrasser du papier encombrant le plus tôt possible, à savoir dès l’entrée du courrier. Les signatures numériques permettent de conserver la valeur probante des documents électroniques. Un service de numérisation central aide à mettre en œuvre un processus de traitement performant, souple et orienté vers l’avenir.

PDF/A, en tant que format de fichier normalisé pour l’archivage à long terme, ne convient pas uniquement aux documents numérisés, il sert également de format universel pour les documents générés numériquement.