PDF Tools AG - Homepage
   

3-Heights™ PDF Extract

Überblick
Funktionen
Vorteile

Einsatzgebiete
Technische Daten


Überblick

3-Heights™ PDF Extract ist eine Komponente zum Auslesen von Inhalten und Eigenschaften von PDF Dokumenten.

Wichtige Informationen wie Produkte Informationen, Kundendaten oder Firmen Wissen werden in PDF Dokumenten abgelegt. Metainformationen, wie der Ersteller des Dokumentes, das Erstellungsdatum oder Änderungsdatum sind Bestandteil eines PDF Dokumentes. Oft werden PDF Dokumente als "Container" verwendet, so dass Text, Bilder, Videos und andere Daten Plattform unabhängig an andere Arbeitsprozesse übermittelt werden können.

Die Komponente kann diese Informationen, sei es Inhalt oder Dokument Eigenschaften, schnell und effizient

3-Heights™ PDF Extract

auslesen. Die Resultate können z. B. in Datenbanken gespeichert werden, für Auswertungen und Statistiken angewendet werden oder zur Sicherstellung von Firmen internem Wissen abgelegt werden.


Funktionen

Informationen werden ja nach Objekt Typ extrahiert. Folgende Objekte und deren Eigenschaften sind unterstützt:

Dokument

  • Dokumentenattribute abfragen, dazu gehören:
    • Autor
    • Titel
    • Thema
    • Schlüsselwörter
    • Ersteller (Creator)
    • Erzeuger (Producer)
    • Erstellungsdatum
    • Modifikationsdatum
  • Ist Dokument verschlüsselt?
  • Ist Dokument linearisiert (optimiert für schnelle Webanzeige)?
  • PDF Version, z. B. 1.4, 1.7
  • Dokument aus Datei oder speicherresident lesen
  • Anzahl Seiten abfragen
  • Eigenschaften von Lesezeichen
  • Seitenbezeichnung abfragen (z. B. "vii", "IX")
  • Eigenschaften von Ressourcen (Bild, Farbraum, Schriften)
  • Destinationen
  • Eingebettete Dateien auflisten und extrahieren
  • Optionalen Inhalt (Layers) auflisten und setzen

Seite

  • Seitengrösse (Media Box) und andere Grössen wie sichtbare Grösse (Crop Box) oder für den Druck relevante Grössen (Trim Box, Art Box, Bleed Box)
  • Gerätefarbe (Device Colorant)
  • Rotation für die Anzeige
  • Seiteninhalt (page content)
  • Annotationen

Seiteninhalt

  • Zum nächsten Objekt (Objekt, Bild, Text, Pfad) springen und dessen Eigenschaften abfragen (Bild, Text)
  • Aktuellen Grafikstatus abfragen

Text

  • Text zeichenweise, wortweise oder seitenweise als Unicode extrahieren
  • Unterstützung von Texten, welche keine Leerzeichen enthalten
  • Koordinaten (X, Y)
  • Umhüllende Box (Bounding Box)
  • Schriftgrösse in Punkten
  • Länge in Punkten
  • Länge in Zeichen
  • Rotation

Schrift

  • Alle, durchschnittliche, Standard Missing Width und maximale Glyph Breiten
  • Base Name
  • Höhe von Gross- und Kleinbuchstaben
  • Vorhandene Charakternamen der Schriftuntergruppe
  • Kodierung
  • Flags
  • Bounding Box
  • Datenstrom Schriftenprogramme
  • Typ (z. B. TrueType, Type1)
  • Neigungswinkel bei kursiven Schriften
  • Empfohlener Abstand zwischen Grundlinie und darauffolgender Linie (leading)
  • Vertikale und horizontale Breite der Glyph Stems

Farbraum

  • Grundfarbraum
  • Farbe (Colorant)
  • Komponenten per Pixel
  • Den höchsten Indexwert bei indizierten Farbräumen
  • Farbraum (Farbe, indiziert, monochrom)
  • Lookup Tabelle
  • Name

3-Heights™ PDF Extract

Bild

  • Höhe und Breite in Pixel
  • Auflösung (DPI)
  • Anzahl Bits pro Kanal
  • Farbraum (bitonal, monochrome, Farbe)
  • Nach RGB konvertieren
  • Alternatives Bild
  • Bild extrahieren (auf Datei oder speicherresident) und Orientierung setzen
  • Kompression des gespeicherten TIFF Bildes setzen (Flate, CCITT G3, G3-2D, G4, JPEG, LZW, keine)
  • Maske, Transparenz Maske
  • Alternatives Bild und ob dieses standardmässig zum Druck verwendet werden soll

Grafikstatus

  • Blend Mode
  • Abstand zwischen Zeichen und Worten (character spacing, word spacing)
  • Aktuelle Transformationsmatrix
  • Elemente und Phase eines Strichmusters (dash pattern)
  • Farbraum der Füll- und Linienfarbe
  • Füll- und Linienfarbe als RGB oder CMYK Wert
  • Überdruckeinstellungen der Füll- und Linienfarbe (over print)
  • Alphakonstante der Füll- und Linienfarbe
  • Flatness Tolerance
  • Schrift und Schriftgrösse -> Siehe Schrift
  • Horizontale Skalierung
  • Textstil (leading, line spacing)
  • Linienstil (line cap, line join, miter limit) und Linienbreite
  • Name des Rendering Intents
  • Smoothness Tolerance
  • Softmaske
  • Text Knockout
  • Text Rendering Modus
  • Textverschiebung (nach unten oder oben)

Transformationsmatrix

  • Transformationswerte
  • Orientierung
  • Rotation
  • Skalierung in X- und Y-Richtung
  • Verschiebung in X- und Y-Richtung
  • Schrägstellung (skewing) in X- und Y-Richtung

Annotation

  • Annotationstyp
  • Farbe
  • Inhalt
  • Datum
  • Destination
  • Flags
  • MarkUp Annotation
  • Name
  • Position (Rechteck)
  • Thema
  • TextLabel
  • URL
  • Eckpunkte, falls es sich um ein Polygon handelt

Lesezeichen

  • Anzahl
  • Destination
  • Titel

Destination

  • Position (Koordinaten von links unten, rechts oben)
  • Typ
  • Seitenzahl

Vorteile

Eigenschaften und Nutzen

Die mit 3-Heights™ PDF Extract extrahierten Texte können beispielsweise für die Indexierung von Dokumenten oder für Suchmaschinen verwendet werden. Die Komponente dient generell zur Suche und Extraktion von Daten und Ressourcen aus einem PDF Dokument, um diese weiter verarbeiten zu können. Dazu stehen äusserst detaillierte Informationen zur Verfügung, die in verschiedenen Formen z. B. an DMS Systeme übergeben werden können.

Leistungsmerkmale

  • Text Zeichen-, Wort- und Seiten weise extrahieren (auch wenn nicht sichtbar)
  • Nach Schlüsselwörter suchen und deren Position auslesen
  • Bilder extrahieren (auch alternative Bilder)
  • Formularfelder auslesen
  • Dokumenteninformationen wie Version, Verschlüsselung, Linearisierung und Metadaten extrahieren
  • Schriften und Farbräume auflisten
  • Seiteninformationen und Seitenbeschreibung (Grafikobjekte, Position und weitere Attribute) extrahieren
  • Lesezeichen extrahieren

Einsatzgebiete

Posteingang und Dokumentverarbeitung

Inhaltsteile von PDF Dateien, z. B. von Formularen oder gescannten Eingangsrechnungen, werden extrahiert und für die Charakterisierung oder Indexierung aufbereitet.

Postausgang

PDF Dokumente werden umstrukturiert, um diese für andere Zielgruppen optimal aufzubereiten. Verarbeitungsinformationen wie Barcodes, Adressinformationen oder Seitenformate können ausgelesen und für die Steuerung von Druck- und Verpackungsstrassen oder Sortierungsprozesse verwendet werden.

Archivierung

Texte oder deren Bestandteile werden für eine separate Speicherung in den Metadaten extrahiert. Damit lässt sich die Indexierung der Dokumente bedürfnisgerecht erweitern.

Weitere Einsatzgebiete

  • Umwandlung von PDF in Textdateien
  • Auszug von Informationen wie Adressen, Rechnungsdaten, Berichtsdaten aus Dokumenten für die Prozesssteuerung
  • Auszug von Informationen für die Dokumentenklassifikation und Dokumentenindexierung
  • Verarbeitung von Formulardaten
  • Auszug von Bildern für die Weiterverarbeitung (Scans, Fotos usw.)
  • Analyse und Auswertung von Inhalten in PDF Dokumenten in der Massenverarbeitung

Technische Daten

Eingangsformate

  • PDF

Compliance

  • Standards: ISO 32000 (PDF 1.7)

Betriebssysteme

  • Windows 7 oder neuer
  • Windows Server 2008 oder neuer
  • HP-UX – PA-RISC und Itanium
  • IBM AIX
  • Linux (SuSE und Red Hat auf Intel)
  • Mac OS X
  • Sun Solaris

Schnittstellen

  • API: C, Java, .NET, COM

Programmiersprachen

Alle Programmbibliotheken sind in effizientem und Thread sicherem C++ geschrieben. In der API wird eine Auswahl der folgenden Anbindungen an Programmiersprachen angeboten:

  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office Produkte wie Access und C++ via COM
  • C und C++ via native C

Produktvarianten

  • Shell Tool (Befehlszeile)
  • API (Programmierschnittstelle)

Nächste Schritte

Preise/Kaufen
Download
Online testen
Angebot

Produktspezifische Erfolgsgeschichten

Advance Management Company, USA

Bayer CropScience AG, Deutschland

Metafile, USA

Oppolis, UK

Quickcomm, USA

SSL, USA

StratOz, Deutschland

Dokumentation / FAQ

Produktflyer

Handbuch:
API - Shell

Beispiele (API)

FAQ:
API - Shell

Wir helfen Ihnen gerne

Auf einfache Weise die gewünschten Antworten erhalten.

Per E-Mail

Per Telefon:
08:00-17:00 MEZ (UTC+1)
+41 43 411 44 51

Folgen und weitersagen

 

Newsletter abonnieren

Copyright 2001-2016 PDF Tools AG

Sitemap | Datenschutz | Rechtliches | Impressum