3-Heights™ PDF Extract – Inhalte, Ressourcen und Metadaten extrahieren

3-Heights™ PDF Extract ist eine Komponente zum Auslesen von Inhalten und Eigenschaften von PDF Dokumenten.

Wichtige Informationen wie Produkte Informationen, Kundendaten oder Firmen Wissen werden in PDF Dokumenten abgelegt. Metainformationen, wie der Ersteller des Dokumentes, das Erstellungsdatum oder Änderungsdatum sind Bestandteil eines PDF Dokumentes. Oft werden PDF Dokumente als «Container» verwendet, so dass Text, Bilder, Videos und andere Daten Plattform unabhängig an andere Arbeitsprozesse übermittelt werden können.

Die Komponente kann diese Informationen, sei es Inhalt oder Dokument Eigenschaften, schnell und effizient angewendet werden oder zur Sicherstellung von Firmen internem Wissen abgelegt werden.

Product illustration 3-Heights™ PDF Extract

Eigenschaften und Nutzen

Die mit 3-Heights™ PDF Extract extrahierten Texte können beispielsweise für die Indexierung von Dokumenten oder für Suchmaschinen verwendet werden. Die Komponente dient generell zur Suche und Extraktion von Daten und Ressourcen aus einem PDF Dokument, um diese weiter verarbeiten zu können. Dazu stehen äusserst detaillierte Informationen zur Verfügung, die in verschiedenen Formen z.B. an DMS Systeme übergeben werden können.

Leistungsmerkmale

  • Text zeichen-, wort- und seitenweise extrahieren (auch wenn nicht sichtbar)
  • Nach Schlüsselwörter suchen und deren Position auslesen
  • Bilder extrahieren (auch alternative Bilder)
  • Formularfelder auslesen
  • Dokumenteninformationen wie Version, Verschlüsselung, Linearisierung und Metadaten extrahieren
  • Schriften und Farbräume auflisten
  • Seiteninformationen und Seitenbeschreibung (Grafikobjekte, Position und weitere Attribute) extrahieren
  • Lesezeichen extrahieren
  • Text extrahieren:
    • Wort für Wort mit konfigurierbarer Wortgrenzenerkennung
    • Abrufen von Textattributen wie Position, Schriftart und Schriftgröße
    • Automatisch korrekte Zeichendekodierung anwenden und Unicode Ausgabe erzeugen
    • Character Codes extrahieren
  • Extrahieren von Grafikobjekten (Pfade):
    • Als Zeichenketten mit PDF-Grafikoperatoren
    • Konvertieren von extrahierten Pfaden nach Bilder
  • Extrahieren und speichern von Bilder:
    • Abrufen von Bildattributen wie Kompressionsformat, Position und Transparenzmasken
    • Extrahieren und Speichern von Transparenzmasken
    • Extrahieren und Speichern von alternativen Bildern
Functionality graphic 3-Heights™ PDF Extract
  • Informationen auf PDF Dokumentenebene extrahieren:
    • Seitenanzahl
    • PDF Version
    • Seitenlabel
    • Erstellungs- und Änderungsdatum
    • Dokumentinformationen wie Titel, Autor, Themen und mehr
    • Lesezeichen mit Sprungzielen
  • Seiteninformationen extrahieren:
    • Media box, crop box, trim box, bleed box und art box
    • Seitenrotation
    • Annotationen
  • Extrahieren und Speichern von eingebetteten Schriftdateien
  • Abrufen detaillierter Schriftinformationen
  • Extrahieren von Ebenen-Informationen und -Sichtbarkeiten
  • Extrahieren von PDF Objekten
  • Farbrauminformationen extrahieren
  • Extrahieren und Speichern von eingebetteten Dateien
  • Password definieren um PDF Dokument zu entschlüsseln

Posteingang und Dokumentverarbeitung

Inhaltsteile von PDF Dateien, z. B. von Formularen oder gescannten Eingangsrechnungen, werden extrahiert und für die Charakterisierung oder Indexierung aufbereitet.

Postausgang

PDF Dokumente werden umstrukturiert, um diese für andere Zielgruppen optimal aufzubereiten. Verarbeitungsinformationen wie Barcodes, Adressinformationen oder Seitenformate können ausgelesen und für die Steuerung von Druck- und Verpackungsstrassen oder Sortierungsprozesse verwendet werden.

Archivierung

Texte oder deren Bestandteile werden für eine separate Speicherung in den Metadaten extrahiert. Damit lässt sich die Indexierung der Dokumente bedürfnisgerecht erweitern.

Weitere Einsatzgebiete

  • Umwandlung von PDF in Textdateien
  • Auszug von Informationen wie Adressen, Rechnungsdaten, Berichtsdaten aus Dokumenten für die Prozesssteuerung
  • Auszug von Informationen für die Dokumentenklassifikation und Dokumentenindexierung
  • Verarbeitung von Formulardaten
  • Auszug von Bildern für die Weiterverarbeitung (Scans, Fotos usw.)
  • Analyse und Auswertung von Inhalten in PDF Dokumenten in der Massenverarbeitung

Eingangsformate

  • PDF

Compliance

  • Standards: ISO 32000 (PDF 1.7)

Betriebssystem

  • Windows Vista, 7, 8, 8.1, 10 - 32 & 64 bit
  • Windows Server 2008, 2008 R2, 2012, 2012 R2, 2016 – 32 & 64 bit
  • HP‑UX 11i incl. ia64 (Itanium) - 64 bit
  • IBM AIX 6.1 - 64 bit
  • macOS 10.4 - 32 & 64 bit
  • Linux 2.4 & 2.6 - 32 & 64 bit
  • Oracle Solaris 10, SPARC & Intel
  • HP-UX 11, PA-RISC2.0 - 32 bit

Schnittstellen

  • API: C, Java, .NET, COM

Programmiersprachen

Alle Programmbibliotheken sind in effizientem und threadsicherem C++ geschrieben. In der API wird eine Auswahl der folgenden Anbindungen an Programmiersprachen angeboten:

  • C und C++ via native C
  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office Produkte wie Access and C++ via COM

Produktvarianten

  • Shell Tool (Befehlszeile)
  • API (Programmierschnittstelle)

Referenzen 3-Heights™ PDF Extract