3-Heights™ PDF Extract – extraction de contenu, des ressources et des métadonnées

3-Heights™ PDF Extract est un module pour la lecture de contenus et de propriétés dans les documents PDF.

Ce module peut lire ces informations, que ce soit le contenu ou les propriétés du document, rapidement et efficacement. Les résultats peuvent p.ex. être enregistrés dans des banques de données, être utilisés pour des évaluations et des statistiques ou être archivées pour la sauvegarde des connaissances internes des entreprises.

Extraire

Extraire des informations telles que du texte, des images, des métadonnées, etc., depuis PDF

Intégrer

Intégrer dans des systèmes d’analyse de données, d’indexation et de gestion de sortie

Indexation

Extraire des informations pour indexer des documents et les retrouver plus facilement

Illustration du produit 3-Heights™ PDF Extract

PDF extract - fonctions

  • Extrait texte :
    • Mot par mot avec détection configurable des limites de mots
    • Récupérer les attributs de texte tels que la position, la police et la taille de police caractères
    • Appliquer automatiquement le décodage correct des caractères et produire une sortie Unicode
    • Extraction des codes de caractères bruts
  • Extraire les objets graphiques (chemins) :
    • Comme chaînes de caractères contenant des opérateurs graphiques PDF
    • Convertir les chemins extraits en images
  • Extraire et enregistrer des images :
    • Récupérer les attributs de l'image tels que le format de compression, la position et les masques de transparence
    • Extraire et enregistrer les masques de transparence
    • Extraire et enregistrer des images alternatives
    • Functionality graphic 3-Heights™ PDF Extract
  • Extraire des informations au niveau du document PDF:
    • Nombre de pages
    • Version PDF
    • Page labels
    • Date de création et de modification
    • Information documentaire comme le titre, l'auteur, les sujets, etc.
    • Contours (signets), y compris les destinations
  • Extraire les informations de la page :
    • Media box, crop box, trim box, bleed box and art box
    • Rotation de page
    • Annotations
  • Les fichiers de polices caractères intégrés
  • Récupérer des informations détaillées sur les polices de caractères
  • Récupérer les informations et la visibilité (couches) du groupe de contenu facultatif (OCG)
  • Extraire des objets
  • Extrait des parties de document pour PDF/X ou PDF2.0
  • Récupérer des informations détaillées sur l'espace colorimétrique, y compris des tables de recherche pour les espaces colorimétriques indexés
  • Extraire et enregistrer des fichiers intégrés
  • Spécifiez un mot de passe pour décrypter les fichiers PDF

Conformité

  • ISO 32000-1 (PDF 1.7)
  • ISO 32000-2 (PDF 2.0)

Formats supportées

Formats d'entrée

  • PDF 1.0 à 1.7
  • PDF 2.0
Loupe grossissante pour nos manuels PDF et notre exemple de code PDF

MANUELS

API | Shell

Domaines d'application - extraire des informations de vos documents PDF

Entrée du courrier et traitement de documents

Des parties du contenu de fichiers PDF, p.ex. de formulaires ou de factures reçues et scannées sont extraites et préparées pour la caractérisation ou l’indexation.

Des informations importantes telles que des informations sur les produits, des données de clients ou des connaissances acquises par des entreprises sont conservées dans des documents PDF. Les méta-informations, telles que le créateur du document, la date de création ou la date de modification font partie intégrante d’un document PDF. Les documents PDF sont souvent employés comme « contenants » pour pouvoir transmettre des textes, images, vidéos et d’autres types de données à d’autres processus de travail indépendamment d’une plateforme spécifique.

Sortie du courrier

Les documents PDF sont déstructurés pour les préparer de manière optimale à l’intention d’autres groupes de destinataires. Les informations de traitement telles que les codes à barres, informations d’adresses ou formats de pages peuvent être lues et utilisées pour la commande des chaînes d’impression et d’emballage ou les processus de tri.

Archivage

Les textes ou des éléments de ceux-ci sont extraits pour un stockage séparé dans les métadonnées. L’indexation des documents peut ainsi être étendue selon les besoins.

Autres domaines d’application

  • Conversion de PDF en fichiers texte
  • Extrait d’informations telles que les adresses, données de factures, données de rapports provenant de documents pour la commande de processus
  • Extrait d’informations pour la classification et l’indexation de documents
  • Traitement de données de formulaires
  • Extrait d’images pour le traitement ultérieur (images scannées, photos, etc.)
  • Analyse et évaluation de contenus dans les documents PDF dans le traitement de masse
Graphique fonctionnel 3-Heights™ PDF Extract

Fonctionnalité PDF et PDF/A dans le système de gestion des documents

Grâce aux composants PDF et PDF/A de PDF Tools AG, myBica AG a pu répondre aux exigences de son client Rottal-Metzg AG de manière rapide et simple. Par l’intégration des composants, myBica a mis en place avec succès une application ERP avec un système d’archivage inaltérable.

Bayer CropScience mise sur le format d’archivage à long terme PDF/A

Cette transformation est avantageuse pour le client à plusieurs titres : contrairement aux pages TIFF, il est possible d’effectuer des recherches dans les documents PDF et d’en copier/coller le contenu. De plus, l’index peut être utilisé pour naviguer rapidement dans le document.

PDF expert blog - about sliced images through exctracting

What can I do about sliced images?

If I try to extract images from a PDF file it sometimes happens that I get a bunch of slices of the original image, mostly consisting of a few image rows per slice or, in extreme cases, just one row. Why is that and how can I get the entire image in one piece?