3-Heights™ Scan to PDF Server – convertir des documents numérisés en format PDF/A

La numérisation de documents papier fait désormais partie du quotidien du service courrier des entreprises. Souvent, ce travail est effectué par un prestataire de numérisation. La plupart du temps, les images scannées sont sauvegardées au format TIFF, en noir et blanc, comme le sont les fax. Ce n’est que pour des utilisations spéciales (chèques, photos pour papiers d’identité, etc.) que le fichier est produit en couleur. Cependant, on ne le fait que rarement, car les fichiers TIFF en couleur peuvent être très lourds.

Aujourd’hui, la norme PDF/A s’est largement imposée dans les applications d’entrée de courrier, surtout lorsqu’il s’agit de numériser en couleur. Toutefois, les différentes étapes de traitement (reconnaissance de texte, compression et signature numérique) ne sont généralement pas parfaitement coordonnées entre elles et ne sont pas intégrées dans une seule solution. Ainsi, il existe par exemple des scanners qui génèrent déjà des fichiers PDF/A et qui peuvent aussi les signer. Mais la compression ultérieure rompt la signature et lui fait perdre sa valeur.

PDF Tools AG offre une solution qui permet la création de fichiers PDF/A à partir d’images reçues par fax tout en satisfaisant aux principales exigences (taille de fichier réduite, consultabilité et métadonnées intégrées). L’image ci-dessous en illustre le principe.

Product illustration 3-Heights™ Scan to PDF Server
  • Format unique : PDF/A est tout aussi bien conçu pour le stockage de documents scannés que de documents créés numériquement.

  • Taux de compression élevé : la norme PDF/A supporte les technologies de compression les plus modernes et les plus efficaces, et permet ainsi de réduire la taille des images couleur.

  • Reconnaissance de texte : grâce à l‘intégration de textes issus de la reconnaissance optique, il est possible de permettre des recherches dans les documents PDF/A scannés.

  • Intégration des métadonnées : pour que le document et ses métadonnées forment une unité indivisible, les métadonnées sont désormais intégrées au document PDF/A. PDF/A utilise pour leur stockage le format Extensible Metadata Platform (XMP), qui est défini par une norme ISO indépendamment de PDF/A.

  • Signature numérique :afin de garantir l’intégrité et l’authenticité des documents créés, il est possible d’apposer une signature numérique au format normalisé PAdES sur le document PDF/A. La signature numérique est une forme de signature électronique qui peut remplacer la signature manuscrite si les conditions légales sont remplies (lois nationales sur les signatures).

Il est possible de profiter de tous ces avantages sur des documents TIFF, mais seulement sous la forme d’extensions propriétaires, car la norme TIFF seule n’offre pas pour cela de solution pour ces besoins.

Illustration 1 : les avantages de PDF/A par rapport à TIFF
ExigenceTIFFPDF/A
Lisibilité sur le long terme++
Précision de la reproduction++
Consistance des donnéesTags propriétaires pour métadonnées+
Authenticité / IntégritéAvec signatures détachées+
Mémoire nécessairenoir et blanc : +
Couleur : -
+
Recherche dans le texteTags propriétaires pour texte OCR+
Expérience sur le long terme++

Les opérations de traitement telles que la reconnaissance de texte, la compression, la création de PDF/A et la signature numérique ne peuvent généralement pas être réalisées par le scanner seul. En effet, des métadonnées sont souvent ajoutées par la suite par un poste d’indexation. Cette étape brise le sceau de la signature numérique et lui fait perdre sa valeur. C’est aussi pour cela qu’un logiciel distinct offre un avantage décisif.

Caractéristiques

  • Conversion d’images tramées d’une ou plusieurs pages au format PDF
  • Sélection du format de sortie et du niveau de conformité (PDF, PDF/A‑1, PDF/A‑2 et PDF/A‑3)
  • OCR (en option)
  • Signature numérique PDF
  • Traitement parallèle

Compression

  • Définir la compression d'image individuellement pour différentes classes d'images
  • Support de Mixed Raster Content (MRC)
  • CCITT Group3 (1D and 2D)
  • CCITT Group4
  • LZW
  • JPEG
  • Deflate (ZIP)
  • JPEG2000
  • JBIG2 (seulement sans pertes)

Fonctions complémentaires

  • Intégration des données XML : lorsque l’on crée un fichier TIFF depuis une application spécialisée, on peut souhaiter y intégrer des informations liées aux factures format XML, par exemple selon la norme ZUGFeRD. On utilise pour cela les capacités du format PDF/A-3.
  • Validation du PDF/A : pour vérifier la qualité des fichiers PDF/A, il est possible d’utiliser un logiciel de vérification afin de garantir la conformité du document à la norme ISO.
  • Fusion de documents : des images d’une seule page doivent être fusionnées dans des fichiers de plusieurs pages ; des documents relatifs au même dossier doivent être réunis en un seul document ou en une seule compilation de documents, comme un dossier ; pour cette fonction, le service peut lire des données textes qui serviront de guide à la fusion des documents.
  • Tampons : en cas de besoin, il est possible d’apposer des tampons ou des filigranes sur les documents créés. Pour cela, le service utilise un fichier XML qui contient les données du filigrane.

Il est possible d’intégrer au service des fonctionnalités supplémentaires (voir plus loin).

Extension avec des fonctionnalités complémentaires

  • Classement automatique : le classement automatique de documents selon leur contenu, le tri des fournisseurs et des adresses clients, des numéros de facture, etc. peut accélérer fortement le traitement de grands volumes de documents. Ce processus rend les postes d’indexage inutiles pour la plupart des documents.
  • Découpage et assemblage des contenus des pages : une page peut contenir plusieurs parties logiques, par exemple séparées par un code-barres. Une fonctionnalité pourrait par exemple isoler ces différentes parties et les répartir sur différentes pages.
  • Conversion de la couleur en nuances de gris : lorsque la couleur n’est pas nécessaire pour une application particulière, cette fonctionnalité permet d’économiser de l’espace de stockage.
  • Importation d’autres formats de données : il existe des scanners qui livrent directement des données PDF, qui peuvent ensuite être importées et optimisées par le serveur de numérisation.
  • Guidage automatique des étapes : en fonction des contenus ou des formats, le serveur peut décider du type et de l’ordre des étapes à suivre.

Domaines d'application

  • Numérisation du courrier papier : archivage électronique des documents papier qui arrivent au courrier d’une entreprise.

  • Numérisation des fax : archivage électronique de tous les échanges de fax entre une entreprise et ses partenaires commerciaux.

  • Migration des archives : migration d’archives papier en une archive électronique au format PDF/A.

  • Utilisation web / mobile : utilisation du service centralisé dans des applications clientserveur via un service Web.

  • Intégration aux applications spécifiques des entreprises : utilisation du système central pour la création de documents PDF/A via une interface de programmation (API) à partir d’applications spécialisées qui créent des données TIFF ou JPEG.

Conformité

Standards:

  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 32000-1 (PDF 1.7)

Distribution de l’architecture et modularité

Le 3-Heights™ Scan to PDF Server est un service modulable et configurable à tout moment. Entre chaque étape comme la compression, la reconnaissance OCR, la conversion en PDF/A, etc., il fait appel à un programme spécifique. Celui-ci reçoit le résultat de l’étape précédente et prépare l’étape suivante. Les différentes étapes sont liées par un fichier de configuration au format XML. Cette architecture permet une organisation très flexible des processus de travail du service ainsi que des possibilités d’extension quasi illimitées (cf. cidessous) en autorisant l’ajout d’étapes supplémentaires.
Afin d’améliorer le traitement parallèle des données, il est possible de découper les documents page par page et de les envoyer parallèlement dans les différentes étapes, puis de les réunir en un seul document à la fin de l’opération. Cette possibilité permet d’exploiter au mieux les ressources informatiques (coeurs du processeur, disques durs, saisie et création des documents, reconnaissance OCR, etc.).

Système d'exploitation

  • Windows Vista, 7, 8, 8.1, 10 - 32 & 64 bit
  • Windows Server 2008, 2008 R2, 2012, 2012 R2, 2016 – 32 & 64 bit

Interfaces

  • API: C, Java, .NET, COM
  • Ligne de commande pour le traitement par lots

Variantes du produit

  • Service

Références 3-Heights™ Scan to PDF Server