3-Heights™ PDF Extract – extraction de contenu, des ressources et des métadonnées

3-Heights™ PDF Extract est un module pour la lecture de contenus et de propriétés dans les documents PDF.

Des informations importantes telles que des informations sur les produits, des données de clients ou des connaissances acquises par des entreprises sont conservées dans des documents PDF. Les méta-informations, telles que le créateur du document, la date de création ou la date de modification font partie intégrante d’un document PDF. Les documents PDF sont souvent employés comme « contenants » pour pouvoir transmettre des textes, images, vidéos et d’autres types de données à d’autres processus de travail indépendamment d’une plateforme spécifique.

Ce module peut lire ces informations, que ce soit le contenu ou les propriétés du document, rapidement et efficacement. Les résultats peuvent p.ex. être enregistrés dans des banques de données, être utilisés pour des évaluations et des statistiques ou être archivées pour la sauvegarde des connaissances internes des entreprises.

Product illustration 3-Heights™ PDF Extract

Propriétés et points forts

Les textes extraits avec 3-Heights™ PDF peuvent être utilisés par exemple pour l’indexation de documents ou pour les moteurs de recherche. Le module sert généralement à la recherche et l’extraction de données et de ressources à partir d’un document PDF en vue de leur traitement ultérieur. Des informations très détaillées sont à disposition et peuvent être remises sous différentes formes p.ex. aux systèmes DMS.

Caractéristiques

  • Extraction de textes par caractères, mots ou pages (également s’ils ne sont pas visibles)
  • Recherche par mots clés et lecture de leur position
  • Extraction d’images (également les images alternatives)
  • Lecture de champs de formulaires
  • Extraction d’informations sur les documents telles que la version, le cryptage, la linéarisation et les métadonnées
  • Liste des polices de caractères et des espaces colorimétriques
  • Extraction des informations des pages et des descriptions des pages (objets graphiques, position et autres attributs)
  • Extraction de signets
  • Extrait texte :
    • Mot par mot avec détection configurable des limites de mots
    • Récupérer les attributs de texte tels que la position, la police et la taille de police caractères
    • Appliquer automatiquement le décodage correct des caractères et produire une sortie Unicode
    • Extraction des codes de caractères bruts
  • Extraire les objets graphiques (chemins) :
    • Comme chaînes de caractères contenant des opérateurs graphiques PDF
    • Convertir les chemins extraits en images
  • Extraire et enregistrer des images :
    • Récupérer les attributs de l'image tels que le format de compression, la position et les masques de transparence
    • Extraire et enregistrer les masques de transparence
    • Extraire et enregistrer des images alternatives
Functionality graphic 3-Heights™ PDF Extract
  • Extraire des informations au niveau du document PDF:
    • Nombre de pages
    • Version PDF
    • Page labels
    • Date de création et de modification
    • Information documentaire comme le titre, l'auteur, les sujets, etc.
    • Contours (signets), y compris les destinations
  • Extraire les informations de la page :
    • Media box, crop box, trim box, bleed box and art box
    • Rotation de page
    • Annotations
  • Les fichiers de polices caractères intégrés
  • Récupérer des informations détaillées sur les polices de caractères
  • Récupérer les informations et la visibilité (couches) du groupe de contenu facultatif (OCG)
  • Extraire des objets
  • Récupérer des informations détaillées sur l'espace colorimétrique, y compris des tables de recherche pour les espaces colorimétriques indexés
  • Extraire et enregistrer des fichiers intégrés
  • Spécifiez un mot de passe pour décrypter les fichiers PDF

Entrée du courrier et traitement de documents

Des parties du contenu de fichiers PDF, p.ex. de formulaires ou de factures reçues et scannées sont extraites et préparées pour la caractérisation ou l’indexation.

Sortie du courrier

Les documents PDF sont déstructurés pour les préparer de manière optimale à l’intention d’autres groupes de destinataires. Les informations de traitement telles que les codes à barres, informations d’adresses ou formats de pages peuvent être lues et utilisées pour la commande des chaînes d’impression et d’emballage ou les processus de tri.

Archivage

Les textes ou des éléments de ceux-ci sont extraits pour un stockage séparé dans les métadonnées. L’indexation des documents peut ainsi être étendue selon les besoins.

Autres domaines d’application

  • Conversion de PDF en fichiers texte
  • Extrait d’informations telles que les adresses, données de factures, données de rapports provenant de documents pour la commande de processus
  • Extrait d’informations pour la classification et l’indexation de documents
  • Traitement de données de formulaires
  • Extrait d’images pour le traitement ultérieur (images scannées, photos, etc.)
  • Analyse et évaluation de contenus dans les documents PDF dans le traitement de masse

Formats d’entrée

  • PDF

Conformité

  • Standards : ISO 32000 (PDF 1.7)

Système d'exploitation

  • Windows Vista, 7, 8, 8.1, 10 - 32 & 64 bit
  • Windows Server 2008, 2008 R2, 2012, 2012 R2, 2016 – 32 & 64 bit
  • HP‑UX 11i incl. ia64 (Itanium) - 64 bit
  • IBM AIX 6.1 - 64 bit
  • macOS 10.4 - 32 & 64 bit
  • Linux 2.4 & 2.6 - 32 & 64 bit
  • Oracle Solaris 10, SPARC & Intel
  • HP-UX 11, PA-RISC2.0 - 32 bit

Interfaces

  • API: C, Java, .NET, COM

Langages de programmation

Toutes les bibliothèques de programmes sont écrites dans le langage efficace et thread-safe C++. Dans l’API une sélection des liens suivants aux langages de programmation est proposée :

  • C und C++ via C natif
  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office, tels que Access and C++ via COM

Variantes du produit

  • Shell Tool (ligne de commande pour le traitement par lots)
  • API (interface de programmation)

Références 3-Heights™ PDF Extract