3-Heights™ PDF Extract – extraction de contenu, des ressources et des métadonnées

3-Heights™ PDF Extract est un module pour la lecture de contenus et de propriétés dans les documents PDF.

Des informations importantes telles que des informations sur les produits, des données de clients ou des connaissances acquises par des entreprises sont conservées dans des documents PDF. Les méta-informations, telles que le créateur du document, la date de création ou la date de modification font partie intégrante d’un document PDF. Les documents PDF sont souvent employés comme « contenants » pour pouvoir transmettre des textes, images, vidéos et d’autres types de données à d’autres processus de travail indépendamment d’une plateforme spécifique.

Ce module peut lire ces informations, que ce soit le contenu ou les propriétés du document, rapidement et efficacement. Les résultats peuvent p.ex. être enregistrés dans des banques de données, être utilisés pour des évaluations et des statistiques ou être archivées pour la sauvegarde des connaissances internes des entreprises.

Product illustration 3-Heights™ PDF Extract

Propriétés et points forts

Les textes extraits avec 3-Heights™ PDF peuvent être utilisés par exemple pour l’indexation de documents ou pour les moteurs de recherche. Le module sert généralement à la recherche et l’extraction de données et de ressources à partir d’un document PDF en vue de leur traitement ultérieur. Des informations très détaillées sont à disposition et peuvent être remises sous différentes formes p.ex. aux systèmes DMS.

Caractéristiques

  • Extraction de textes par caractères, mots ou pages (également s’ils ne sont pas visibles)
  • Recherche par mots clés et lecture de leur position
  • Extraction d’images (également les images alternatives)
  • Lecture de champs de formulaires
  • Extraction d’informations sur les documents telles que la version, le cryptage, la linéarisation et les métadonnées
  • Liste des polices de caractères et des espaces colorimétriques
  • Extraction des informations des pages et des descriptions des pages (objets graphiques, position et autres attributs)
  • Extraction de signets

Les informations sont extraites selon le type d’objet. Les objets suivants et leurs propriétés sont pris en charge :

Documents

  • Interrogation des attributs des documents, tels que :

    • Auteur
    • Titre
    • Sujet
    • Mots clés
    • Créateur
    • Producteur
    • Date de création
    • Date de modification

  • Le document est‑il crypté ?
  • Le document est‑il linéarisé (optimisé pour l’affichage rapide sur Internet) ?
  • Version PDF, p.ex. 1.4, 1.7
  • Lecture de documents à partir d’un fichier ou résidents en mémoire
  • Interrogation du nombre de pages
  • Propriétés des signets
  • Interrogation de la désignation des pages (p.ex. « vii ;», « IX »)
  • Propriétés des ressources (image, espace colorimétrique)
  • Destinations

Pages

  • Taille des pages (media box) et autres grandeurs telles que taille visible(crop box) ou grandeurs utiles pour l’impression (trim box, art box, bleed box)
  • Device colorant
  • Rotation de l’affichage
  • Contenu des pages (page content)
  • Annotations

Contenu des pages

  • Sauter à l’objet suivant (objet, image, texte, chemin) et afficher ses propriétés (image, texte)
  • Interrogation de l’état graphique actuel

Textes

  • Extraction de textes par caractères, mots ou pages comme Unicode
  • Prise en charge de textes sans signets
  • Coordonnées (X, Y)
  • Matrice de caractère (bounding box)
  • Taille du caractère en points
  • Longueur en points
  • Longueur en caractères
  • Rotation

Polices de caractères

  • Toutes, moyennes, largeurs « standard missing width » et « maximal glyph »
  • Nom de base
  • Hauteur des majuscules et des minuscules
  • Noms des caractères disponibles du sous-groupe de caractères
  • Codage
  • Balises
  • Matrice de caractère
  • Flux de données des programmes de polices de caractères
  • Type (p.ex. TrueType, Type1)
  • Angle d’inclinaison des italiques
  • Ecart recommandé entre la ligne de base et la ligne suivante (interlignage)
  • Largeur verticale et horizontale des jambages des glyphes

Espace colorimétrique

  • Espace colorimétrique de base
  • Couleur (colorant)
  • Composantes par pixel
  • Indice le plus élevé des espaces colorimétriques indexés
  • Espace colorimétrique (couleur, indexé, monochrome)
  • Tableau de consultation
  • Nom
Functionality graphic 3-Heights™ PDF Extract

Images

  • Hauteur et largeur en pixels
  • Résolution (DPI)
  • Nombre de bits par canal
  • Espace colorimétrique (bitonal, monochrome, couleur)
  • Conversion en RGB
  • Image alternative
  • Extraction d’images (à partir d’un fichier ou résidentes en mémoire) et régler l’orientation
  • Sélection de la compression des images TIFF enregistrées (Flate, CCITT G3, G3‑2D, G4, JPEG, LZW, aucune)
  • Masque, transparence masque
  • Image alternative et déterminer si elle doit être utilisée en standard pour l’impression

Paramètres graphiques

  • Mode de fusion
  • Espacement entre les caractères et les mots
  • Matrice de transformation actuelle
  • Elements et décalage des lignes en pointillé (dash pattern)
  • Espace colorimétrique de la couleur de remplissage et de la couleur des lignes
  • Couleur de remplissage et couleur des lignes comme valeur RGB ou CMYK
  • Réglages pour la surimpression de la couleur de remplissage et la couleur des lignes (over print)
  • Constante alpha de la couleur de remplissage et la couleur des lignes
  • Tolérance de planéité· Police de caractères et taille ‑> voir « police de caractères »
  • Mise à l’échelle horizontale
  • Style du texte (interlignage)
  • Style des lignes (line cap, line join, miter limit) et largeur des lignes
  • Nom de l’intention de rendu
  • Tolérance de lissage
  • Softmasks
  • Masquage de textes
  • Mode de rendu de textes
  • Déplacement du texte (vers le bas ou le haut)

Matrice de transformation

  • Valeurs de transformation
  • Orientation
  • Rotation
  • Mise à l’échelle dans le sens X et Y
  • Déplacement dans le sens X et Y
  • Inclinaison horizontale (skewing) dans le sens X et Y

Annotations

  • Type d’annotation
  • Couleur
  • Contenu
  • Date
  • Destination
  • Balises
  • Marquage (MarkUp annotation)
  • Nom
  • Position (rectangle)
  • Sujet
  • TextLabel
  • URL
  • Points d’angle s’il s’agit d’un polygone

Signets

  • Nombre
  • Destination
  • Titre

Destination

  • Position (coordonnées à partir de l’angle inférieur gauche, supérieur droit)
  • Type
  • Nombre de pages

Entrée du courrier et traitement de documents

Des parties du contenu de fichiers PDF, p.ex. de formulaires ou de factures reçues et scannées sont extraites et préparées pour la caractérisation ou l’indexation.

Sortie du courrier

Les documents PDF sont déstructurés pour les préparer de manière optimale à l’intention d’autres groupes de destinataires. Les informations de traitement telles que les codes à barres, informations d’adresses ou formats de pages peuvent être lues et utilisées pour la commande des chaînes d’impression et d’emballage ou les processus de tri.

Archivage

Les textes ou des éléments de ceux-ci sont extraits pour un stockage séparé dans les métadonnées. L’indexation des documents peut ainsi être étendue selon les besoins.

Autres domaines d’application

  • Conversion de PDF en fichiers texte
  • Extrait d’informations telles que les adresses, données de factures, données de rapports provenant de documents pour la commande de processus
  • Extrait d’informations pour la classification et l’indexation de documents
  • Traitement de données de formulaires
  • Extrait d’images pour le traitement ultérieur (images scannées, photos, etc.)
  • Analyse et évaluation de contenus dans les documents PDF dans le traitement de masse

Formats d’entrée

  • PDF

Conformité

  • Standards : ISO 32000 (PDF 1.7)

Système d'exploitation

  • Windows 7, 8, 8.1, 10
  • Windows Server 2008 R2, 2012, 2012 R2 – 64 Bit
  • Sun Solaris / SPARC 5.10
  • HP‑UX 11i incl. IA64
  • IBM AIX 5.1
  • macOS 10.4 x86 / x64
  • Linux 2.6 (SuSE)
  • Windows Server 2008 - 32 / 64 Bit
  • Linux 2.4 (RedHat)
  • Linux 3.18 ARMv7
  • SunSolaris / Intel 5.10

Interfaces

  • API: C, Java, .NET, COM

Langages de programmation

Toutes les bibliothèques de programmes sont écrites dans le langage efficace et thread-safe C++. Dans l’API une sélection des liens suivants aux langages de programmation est proposée :

  • C und C++ via C natif
  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office, tels que Access and C++ via COM

Variantes du produit

  • Shell Tool (ligne de commande pour le traitement par lots)
  • API (interface de programmation)

Références 3-Heights™ PDF Extract