PDF Tools AG - Homepage
   

3-Heights™ PDF Extract

Aperçu général
Fonctions
Avantages

Domaines d’application
Données techniques


Aperçu général

3-Heights™ PDF Extract est un module pour la lecture de contenus et de propriétés dans les documents PDF.

Des informations importantes telles que des informations sur les produits, des données de clients ou des connaissances acquises par des entreprises sont conservées dans des documents PDF. Les méta-informations, telles que le créateur du document, la date de création ou la date de modification font partie intégrante d’un document PDF. Les documents PDF sont souvent employés comme « contenants » pour pouvoir transmettre des textes, images, vidéos et d’autres types de données à d’autres processus de travail indépendamment d’une plateforme spécifique.

Ce module peut lire ces informations, que ce soit le contenu ou les propriétés du document, rapidement et

3-Heights™ PDF Extract

efficacement. Les résultats peuvent p.ex. être enregistrés dans des banques de données, être utilisés pour des évaluations et des statistiques ou être archivées pour la sauvegarde des connaissances internes des entreprises.


Fonctions

Les informations sont extraites selon le type d’objet. Les objets suivants et leurs propriétés sont pris en charge :

Documents

  • Interrogation des attributs des documents, tels que :
    • Auteur
    • Titre
    • Sujet
    • Mots clés
    • Créateur
    • Producteur
    • Date de création
    • Date de modification
  • Le document est-il crypté ?
  • Le document est-il linéarisé (optimisé pour l’affichage rapide sur Internet) ?
  • Version PDF, p.ex. 1.4, 1.7
  • Lecture de documents à partir d’un fichier ou résidents en mémoire
  • Interrogation du nombre de pages
  • Propriétés des signets
  • Interrogation de la désignation des pages (p.ex. « vii », « IX »)
  • Propriétés des ressources (image, espace colorimétrique)
  • Destinations

Pages

  • Taille des pages (media box) et autres grandeurs telles que taille visible(crop box) ou grandeurs utiles pour l’impression (trim box, art box, bleed box)
  • Device colorant
  • Rotation de l’affichage
  • Contenu des pages (page content)
  • Annotations

Contenu des pages

  • Sauter à l’objet suivant (objet, image, texte, chemin) et afficher ses propriétés (image, texte)
  • Interrogation de l’état graphique actuel

Textes

  • Extraction de textes par caractères, mots ou pages comme Unicode
  • Prise en charge de textes sans signets
  • Coordonnées (X, Y)
  • Matrice de caractère (bounding box)
  • Taille du caractère en points
  • Longueur en points
  • Longueur en caractères
  • Rotation

Polices de caractères

  • Toutes, moyennes, largeurs « standard missing width » et « maximal glyph »
  • Nom de base
  • Hauteur des majuscules et des minuscules
  • Noms des caractères disponibles du sous-groupe de caractères
  • Codage
  • Balises
  • Matrice de caractère
  • Flux de données des programmes de polices de caractères
  • Type (p.ex. TrueType, Type1)
  • Angle d’inclinaison des italiques
  • Ecart recommandé entre la ligne de base et la ligne suivante (interlignage)
  • Largeur verticale et horizontale des jambages des glyphes

Espace colorimétrique

  • Espace colorimétrique de base
  • Couleur (colorant)
  • Composantes par pixel
  • Indice le plus élevé des espaces colorimétriques indexés
  • Espace colorimétrique (couleur, indexé, monochrome)
  • Tableau de consultation
  • Nom

3-Heights™ PDF Extract

Images

  • Hauteur et largeur en pixels
  • Résolution (DPI)
  • Nombre de bits par canal
  • Espace colorimétrique (bitonal, monochrome, couleur)
  • Conversion en RGB
  • Image alternative
  • Extraction d’images (à partir d’un fichier ou résidentes en mémoire) et régler l’orientation
  • Sélection de la compression des images TIFF enregistrées (Flate, CCITT G3, G3-2D, G4, JPEG, LZW, aucune)
  • Masque, transparence masque
  • Image alternative et déterminer si elle doit être utilisée en standard pour l’impression

Paramètres graphiques

  • Mode de fusion
  • Espacement entre les caractères et les mots
  • Matrice de transformation actuelle
  • Elements et décalage des lignes en pointillé (dash pattern)
  • Espace colorimétrique de la couleur de remplissage et de la couleur des lignes
  • Couleur de remplissage et couleur des lignes comme valeur RGB ou CMYK
  • Réglages pour la surimpression de la couleur de remplissage et la couleur des lignes (over print)
  • Constante alpha de la couleur de remplissage et la couleur des lignes
  • Tolérance de planéité· Police de caractères et taille -> voir « police de caractères »
  • Mise à l’échelle horizontale
  • Style du texte (interlignage)
  • Style des lignes (line cap, line join, miter limit) et largeur des lignes
  • Nom de l’intention de rendu
  • Tolérance de lissage
  • Softmasks
  • Masquage de textes
  • Mode de rendu de textes
  • Déplacement du texte (vers le bas ou le haut)

Matrice de transformation

  • Valeurs de transformation
  • Orientation
  • Rotation
  • Mise à l’échelle dans le sens X et Y
  • Déplacement dans le sens X et Y
  • Inclinaison horizontale (skewing) dans le sens X et Y

Annotations

  • Type d’annotation
  • Couleur
  • Contenu
  • Date
  • Destination
  • Balises
  • Marquage (MarkUp annotation)
  • Nom
  • Position (rectangle)
  • Sujet
  • TextLabel
  • URL
  • Points d’angle s’il s’agit d’un polygone

Signets

  • Nombre
  • Destination
  • Titre

Destination

  • Position (coordonnées à partir de l’angle inférieur gauche, supérieur droit)
  • Type
  • Nombre de pages

Avantages

Propriétés et points forts

Les textes extraits avec 3-Heights™ PDF peuvent être utilisés par exemple pour l’indexation de documents ou pour les moteurs de recherche. Le module sert généralement à la recherche et l’extraction de données et de ressources à partir d’un document PDF en vue de leur traitement ultérieur. Des informations très détaillées sont à disposition et peuvent être remises sous différentes formes p.ex. aux systèmes DMS.

Caractéristiques

  • Extraction de textes par caractères, mots ou pages (également s’ils ne sont pas visibles)
  • Recherche par mots clés et lecture de leur position
  • Extraction d’images (également les images alternatives)
  • Lecture de champs de formulaires
  • Extraction d’informations sur les documents telles que la version, le cryptage, la linéarisation et les métadonnées
  • Liste des polices de caractères et des espaces colorimétriques
  • Extraction des informations des pages et des descriptions des pages (objets graphiques, position et autres attributs)
  • Extraction de signets

Domaines d’application

Entrée du courrier et traitement de documents

Des parties du contenu de fichiers PDF, p.ex. de formulaires ou de factures reçues et scannées sont extraites et préparées pour la caractérisation ou l’indexation.

Sortie du courrier

Les documents PDF sont déstructurés pour les préparer de manière optimale à l’intention d’autres groupes de destinataires. Les informations de traitement telles que les codes à barres, informations d’adresses ou formats de pages peuvent être lues et utilisées pour la commande des chaînes d’impression et d’emballage ou les processus de tri.

Archivage

Les textes ou des éléments de ceux-ci sont extraits pour un stockage séparé dans les métadonnées. L’indexation des documents peut ainsi être étendue selon les besoins.

Autres domaines d’application

  • Conversion de PDF en fichiers texte
  • Extrait d’informations telles que les adresses, données de factures, données de rapports provenant de documents pour la commande de processus
  • Extrait d’informations pour la classification et l’indexation de documents
  • Traitement de données de formulaires
  • Extrait d’images pour le traitement ultérieur (images scannées, photos, etc.)
  • Analyse et évaluation de contenus dans les documents PDF dans le traitement de masse

Données techniques

Formats d’entrée

  • PDF

Conformité

  • Standards : ISO 32000 (PDF 1.7)

Systèmes d’exploitation

  • Windows 7 ou version plus récente
  • Windows Server 2008 ou version plus récente
  • HP-UX – PA-RISC et Itanium
  • IBM AIX
  • Linux (SuSE et Red Hat sur Intel)
  • Mac OS X
  • Sun Solaris

Interfaces

  • API : C, Java, .NET, COM

Langages de programmation

Toutes les bibliothèques de programmes sont écrites dans le langage efficace et thread-safe C++. Dans l’API une sélection des liens suivants aux langages de programmation est proposée :

  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office, tels que Access et C++ via COM
  • C et C++ via C natif

Variantes du produit

  • Shell Tool (ligne de commande pour le traitement par lots)
  • API (interface de programmation)

Prochaines étapes

Prix / acheter
Télécharger
Essai en ligne
Offre

Histoires à succès
spécifique au produit

Advance Management Company, USA

Bayer CropScience AG, Allemagne

Metafile, USA

Oppolis, UK

SSL, USA

StratOz, Allemagne

Documentation / FAQ

Prospectus

Manuel :
API - Shell

Exemples (API)

FAQ :
API - Shell

Nous vous aidons volontiers

Recevez facilement les réponses à vos questions.

par e-mail

par téléphone :
08:00-17:00 HEC (UTC+1)
+41 43 411 44 51

Copyright 2001-2016 PDF Tools AG

Sitemap | Privacy | Legal | Masthead