Suche nach Informationen durch Extraktion von Daten aus einem PDF-Dokument
Das Extrahieren von Text aus einem PDF-Dokument ist eine der beliebtesten Funktionen zur Informationsgewinnung. Aber was ist mit anderen Informationen wie Bildern, Metadaten und mehr? Das kann einfach sein - aber auch knifflig.
Zu den am einfachsten zu extrahierenden Elementen gehören die Metadaten. Die Metadaten eines Dokuments können in der Regel in Form eines kurzen XMP-Streams extrahiert werden. Selbst wenn das Dokument ein altmodisches Informationswörterbuch enthält, ist die Extraktion der Schlüssel/Wert-Paare keine große Sache. Ähnlich verhält es sich mit Gliederungen (Lesezeichen), Navigationshilfen wie benannten Zielen, Links und dergleichen.
Die Extraktion der grafischen Inhalte einer Seite ist jedoch wesentlich komplexer. Theoretisch ist es möglich, jedes Inhaltsobjekt und die zugehörigen Ressourcenobjekte zu extrahieren und für die Erstellung einer HTML-Seite oder einer Seite in einer anderen Beschreibungssprache zu verwenden. In der Praxis erweist sich dies aufgrund des Grafikmodells, das PDF bietet, als zu komplex. Dieses Modell hat einige einzigartige Merkmale wie Muster, Schattierungen und Transparenzgruppen mit einer Vielzahl von Mischmodi. Außerdem unterscheiden sich die Regeln für die Scankonvertierung erheblich von denen, die in handelsüblichen Grafikprozessoren eingebaut sind. So kann die Abbildung einer PDF-Seitenbeschreibung in HTML, PCL oder sogar PostScript nur durch eine Transformation der Seitenbeschreibung mit Hilfe von Transparenzreduzierung und anderen Techniken erreicht werden.
Wenn man den Seiteninhalt in ein anderes Dokumentenformat konvertieren muss, ist es daher viel sinnvoller, ein spezialisiertes Konvertierungswerkzeug wie den PDF to Image Converter zu verwenden.
Die meisten Anwendungen befassen sich mit der Extraktion von Text. Typische Einsatzgebiete sind die Klassifizierung von Transaktionsdokumenten wie z.B. Rechnungen, die Implementierung einer Textsuchfunktion in Dokumentenablagen und vieles mehr. Weitere Informationen finden Sie in diesem Artikel: Warum ist die Extraktion von Text aus einem PDF-Dokument so mühsam?
Wie oben beschrieben, kann die Extraktion von Informationen aus einem PDF-Dokument sehr einfach, aber auch recht knifflig sein. Es hängt davon ab, welche Art von Informationen die Anwendung benötigt. Um die Programmierung solcher Anwendungen so einfach wie möglich zu gestalten, haben wir ein spezielles Werkzeug entwickelt, das PDF Extract Tool. Es bietet eine einfach zu bedienende Schnittstelle, die auf der Grundlage der oben genannten Erkenntnisse entwickelt wurde. Die meisten Anwendungsfälle können mit nur wenigen Zeilen Code behandelt werden. Dies wird dadurch erreicht, dass einige Funktionen des PDF-Grafikmodells wie z. B. Koordinatentransformationen vor dem Programmierer verborgen werden.