PDF Extract

Toutes les caractéristiques et possibilités d'outils en un coup d'œil

Linux
MacOS
Windows Client
Windows Server
API
Shell tool (command line)
.NET Core
Java
C#
C/C++

En bref

Conformité

  • ISO 32000-1 (PDF 1.7)

  • ISO 32000-2 (PDF 2.0)

  • ISO 19005-1 (PDF/A-1)

  • ISO 19005-2 (PDF/A-2)

  • ISO 19005-3 (PDF/A-3)

Formats pris en charge

  • PDF 1.0 à 1.7

  • PDF 2.0

  • PDF/A-1, PDF/A-2, PDF/A-3

Fonctionnalités

Extraire du texte

  • Configuration de la détection des délimitations de mots, mot par mot

  • Récupérer les attributs du texte tels que la position, la police et la taille de la police

  • Appliquer automatiquement le décodage adéquat des caractères et produire une sortie Unicode

  • Extraire les codes de caractères bruts

Extraire des objets graphiques (paths)

  • Extraction de chaînes de caractères contenant des opérateurs graphiques PDF

  • Convertir les chemins extraits en images

Extraire et stocker des images

  • Récupérer les attributs de l'image tels que le format de compression, la position et les masques de transparence

  • Extraire et stocker les masques de transparence

  • Extraire et stocker des images alternatives

Extraire des informations du document PDF

  • Nombre de pages

  • Version PDF

  • Libellés des pages

  • Date de création et de modification

  • Informations sur le document, telles que le titre, l'auteur, les sujets, etc.

  • Plans (signets), y compris les destinations

Extraire des informations des pages

  • Boîte média, boîte de détourage, boîte de rognage, boîte à fond perdu et boîte d'art

  • Rotation de la page

  • Annotations

Fonctionnalités supplémentaires

  • Extraction et stockage des fichiers de polices intégrés

  • Récupérer des informations détaillées sur les polices

  • Récupérer les informations sur les groupes de contenu optionnels (OCG) et la visibilité (couches)

  • Récupération d'informations détaillées sur l'état graphique de chaque objet de contenu de page extrait

  • Extraction d'objets PDF bruts

  • Extraction de parties de document pour PDF/X ou PDF 2.0

  • Récupérer des informations détaillées sur l'espace colorimétrique, y compris les tables de consultation pour les espaces colorimétriques indexés

  • Extraire et stocker les fichiers intégrés

  • Spécifier un mot de passe pour décrypter les fichiers PDF