PDF Extract

Alle Funktionen und Einsatzmöglichkeiten auf einen Blick

Linux
MacOS
Windows Client
Windows Server
API
Shell tool (command line)
.NET Core
Java
C#
C/C++

Fakten in Kürze

Konformität

  • ISO 32000-1 (PDF 1.7)

  • ISO 32000-2 (PDF 2.0)

  • ISO 19005-1 (PDF/A-1)

  • ISO 19005-2 (PDF/A-2)

  • ISO 19005-3 (PDF/A-3)

Unterstützte Formate

  • PDF 1.0 bis 1.7

  • PDF 2.0

  • PDF/A-1, PDF/A-2, PDF/A-3

Features

Text extrahieren

  • Konfigurieren Sie die Erkennung von Wort-Boundary-Grenzen, Wort für Wort

  • Abrufen von Textattributen wie Position, Schriftart und Schriftgröße

  • Automatische Anwendung der korrekten Zeichendekodierung und Erzeugung von Unicode-Ausgaben

  • Extrahieren von Rohzeichencodes

Grafikobjekte (Pfade) extrahieren

  • Extrahieren als Strings, die PDF-Grafikoperatoren beinhalten

  • Extrahierte Pfade in Bilder umwandeln

Bilder extrahieren und speichern

  • Abrufen von Bildattributen wie Kompressionsformat, Position und Transparenzmasken

  • Extrahieren und Speichern von Transparenzmasken

  • Extrahieren und Speichern von alternativen Bildern

Extrahieren von Informationen auf PDF-Dokumentenebene

  • Anzahl der Seiten

  • PDF-Version

  • Seitenbeschriftung

  • Erstellungs- und Änderungsdatum

  • Dokumentinformationen wie Titel, Autor, Themen und mehr

  • Gliederungen (Lesezeichen), einschließlich Verlinkungen

Seiteninformationen auslesen

  • Medienbox, Zuschneidebox, Beschnittbox, Anschnittbox und Grafikbox

  • Rotation der Seite

  • Anmerkungen

Zusätzliche Funktionen

  • Extrahieren und Speichern eingebetteter Schriftdateien

  • Abrufen von detaillierten Schriftinformationen

  • Abrufen von Informationen über optionale Inhaltsgruppen (OCG) und Sichtbarkeit (Ebenen)

  • Abrufen detaillierter Grafikstatusinformationen für jedes extrahierte Seiteninhaltsobjekt

  • Extrahieren von Roh-PDF-Objekten

  • Extrahieren von Dokumentteilen für PDF/X oder PDF 2.0

  • Abrufen von detaillierten Farbrauminformationen, einschließlich Nachschlagetabellen für indizierte Farbräume

  • Extrahieren und Speichern eingebetteter Dateien

  • Festlegen eines Kennworts zur Entschlüsselung von PDF-Dateien