3-Heights® PDF Extract - Inhalte, Ressourcen und Metadaten parsen und extrahieren in C#, Java und Batch
3-Heights® PDF Extract ist ein effizienter und vielseitiger PDF Inhalt- und Metadaten Parser und Extraktor. Er bildet die technische Grundlage für verschiedenste Lösungen: Von der einfachen PDF nach Text Konvertierung bis zu komplexen Business Intelligence und Big Data Lösungen. PDF Extract erlaubt die präzise und vollständige Überführung von binären Daten (PDF) in strukturierte Informationen, z.B. in Unicode, Bilder und Metadaten. Das Produkt stellt dafür eine seitenbasierte Extraktion via Kommandozeile zur Verfügung, aber auch eine API zur Ausprogrammierung komplexerer Operationen, z.B. in C#, Java, Visual Basic oder C/C++.
Informationen aus PDF extrahieren
Informationen wie Text, Bilder, Metadaten usw. aus PDF extrahieren
Einfache Integration
In Datenanalyse-, Indexierungs- und Outputmanagement-Systeme integrieren
Indexierung
Informationen Extrahieren zur computergestützten Indexierung oder für Business Intelligence Prozesse
Verbesserte „InsureSign“ Lösung durch Einsatz von PDF Tools Software
Bayer CropScience zählt auf das ISO Langzeitarchivformat PDF/A

PDF extract - Funktionen
- Text extrahieren:
- Wort für Wort mit konfigurierbarer Wortgrenzenerkennung
- Abrufen von Textattributen wie Position, Schriftart und Schriftgröße
- Automatisch korrekte Zeichendekodierung anwenden und Unicode Ausgabe erzeugen
- Character Codes extrahieren
- Extrahieren von Grafikobjekten (Pfade):
- Als Zeichenketten mit PDF-Grafikoperatoren
- Konvertieren von extrahierten Pfaden nach Bilder
- Extrahieren und speichern von Bilder:
- Abrufen von Bildattributen wie Kompressionsformat, Position und Transparenzmasken
- Extrahieren und Speichern von Transparenzmasken
- Extrahieren und Speichern von alternativen Bildern
- Informationen aus PDF Dokumentenebene extrahieren:
- Seitenanzahl
- PDF Version
- Seitenlabel
- Erstellungs- und Änderungsdatum
- Dokumentinformationen wie Titel, Autor, Themen und mehr
- Lesezeichen mit Sprungzielen
- Seiteninformationen extrahieren:
- Media box, crop box, trim box, bleed box und art box
- Seitenrotation
- Annotationen
- Extrahieren und Speichern von eingebetteten Schriftdateien
- Abrufen detaillierter Schriftinformationen
- Extrahieren von Ebenen-Informationen und -Sichtbarkeiten
- Extrahieren von PDF Objekten
- Document parts für PDF/X oder PDF 2.0 extrahieren
- Farbrauminformationen extrahieren
- Extrahieren und Speichern von eingebetteten Dateien
- Password definieren um PDF Dokument zu entschlüsseln

Einsatzbereiche - Informationen aus PDF Dokumenten extrahieren
Posteingang und Dokumentverarbeitung
Inhaltsteile von PDF Dateien, z. B. von Formularen oder gescannten Eingangsrechnungen, werden extrahiert und für die Charakterisierung oder Indexierung aufbereitet.
Wichtige Informationen wie Produkte Informationen, Kundendaten oder Firmen Wissen werden in PDF Dokumenten abgelegt. Metainformationen, wie der Ersteller des Dokumentes, das Erstellungsdatum oder Änderungsdatum sind Bestandteil eines PDF Dokumentes. Oft werden PDF Dokumente als «Container» verwendet, so dass Text, Bilder, Videos und andere Daten Plattform unabhängig an andere Arbeitsprozesse übermittelt werden können.
Postausgang
PDF Dokumente werden umstrukturiert, um diese für andere Zielgruppen optimal aufzubereiten. Verarbeitungsinformationen wie Barcodes, Adressinformationen oder Seitenformate können ausgelesen und für die Steuerung von Druck- und Verpackungsstrassen oder Sortierungsprozesse verwendet werden.
Archivierung
Texte oder deren Bestandteile werden für eine separate Speicherung in den Metadaten extrahiert. Damit lässt sich die Indexierung der Dokumente bedürfnisgerecht erweitern. Die Massenverarbeitung kann mit einer Batchdatei oder einer individuell programmierten Lösung erreicht werden.
Weitere Einsatzgebiete
- Umwandlung von PDF in Textdateien
- Auszug von Informationen wie Adressen, Rechnungsdaten, Berichtsdaten aus Dokumenten für die Prozesssteuerung
- Auszug von Informationen für die Dokumentenklassifikation und Dokumentenindexierung
- Verarbeitung von Formulardaten
- Auszug von Bildern für die Weiterverarbeitung (Scans, Fotos usw.)
- Analyse und Auswertung von Inhalten in PDF Dokumenten in der Massenverarbeitung
