3-Heights™ PDF OCR – optische Texterkennung

3-Heights™ PDF OCR optimiert PDF-Dokumente durch den Einsatz von Daten, die von einer OCR-Engine erfasst wurden.

Texterkennung

Einbettung von gefundenen Textelementen aus Dokumenten, Bildern oder Grafiken

Tags für Barrierefreiheit

Vorbereitung von Dokumenten für die Konvertierung zu PDF/A Level A

Barcode- und QR-Code-Erkennung

Extraktion von gefundenen Codes und Einbettung in Metadaten

PDF OCR - optimiert PDF-Dokumente durch den Einsatz von Daten, die von einer OCR-Engine erfasst wurden

PDF OCR - Funktionen

  • Textinhalte extrahierbar machen
    • Textinhalte aus Bildern
    • Textinhalte mit Schriftarten ohne Unicode-Kennzahlen
    • Textinhalte, die mithilfe von Vektorgrafiken erstellt wurden (z. B. CAD-Zeichnungen)
    • Alle sichtbaren Textinhalte, unabhängig von der Art der verwendeten Grafikobjekte
  • Scans optimieren
    • Gescannte Bilder gerade rücken
    • Seiten entsprechend der erkannten Ausrichtung des Scans drehen
  • Barcodes und QR-Codes erfassen
  • Eingebettete Dateien verarbeiten
  • Tagging von OCR-Textinhalten für Barrierefreiheit
  • Hohe Leistungsfähigkeit
    • Asynchrone Verarbeitung
    • Seitenanalyse und Ergebnis-Caching zur Minimierung von OCR-Vorgängen
  • Hohe Qualität
    • PDF/A-konform
    • Zuverlässige Konvertierung von bestehenden Inhalten
    • 3-Heights™ PDF Rendering Engine 2.0.
    • Automatische Erkennung von optimaler OCR-Auflösung

Conformance

  • ISO 32000-1 (PDF 1.7)
  • ISO 32000-2 (PDF 2.0)
  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 19005-3 (PDF/A-3)
Powered by 3-Heights™ Technology and PDF/A compliant

Unterstützte Formate

Eingangs- und Ausgangsformate

  • PDF 1.0 bis PDF 1.7
  • PDF 2.0
  • PDF/A-1, PDF/A-2, PDF/A-3
Vergrößerungslinse für unsere PDF-Handbücher und PDF-Beispielcode

HANDBUCH

API | SHELL

Einsatzgebiete - Textinhalte in Dokumenten erfassen und erkennen

Texterkennung im Dokumentenprozess

PDF OCR unterstützt Dokumentenprozesse vom Eingang bis zur Ablage in einem digitalen Archiv. Es werden gescannte Bilder und eingebettete Bilder in digital erzeugten Dokumenten lesbar gemacht. Zudem werden die fehlenden Unicodes bei eingebetteten Schriften ergänzt, so dass auch diese Texte lesbar werden. Alle erkannten Texte werden in das Dokument eingebettet und macht es so durchsuchbar. Diese Texte können durch weitere Werkzeuge auch jederzeit extrahiert werden.

PDF OCR optimiert die Aufträge an die OCR-Engine, um das Volumen der erkannten Seiten zu minimieren.

Das Werkzeug erleichtert die Arbeitsschritte in einem Dokumentenverarbeitungsprozess, wie die Klassifizierung, Einordnung, Indexierung und das Anreichern von Metadaten in den Dokumenten.

Diese Möglichkeiten bietet Ihnen 3-Heights™ PDF OCR

    • Optimiertes Seitenvolumen für die OCR-Engine
    • Einsetzbar für die individuelle Verarbeitung sowie die Massenverarbeitung
    • Leistungsfähige Komponenten, die sich durch hohe Stabilität, Qualität und Skalierbarkeit auszeichnen

Qualitätssicherung
Schlichte, schlanke und ISO-konforme PDF-Dokumente ohne Qualitäts- und Informationsverlust.

Kosteneffizienz
Effiziente und kostensparende OCR-Verarbeitung auf hohem Niveau.

Zeit
Effiziente Verarbeitung dank der 3-Heights™-Architektur. Schnelle Dokumentenanzeige, kurze Download- und Durchsuchungszeiten.

Why is the extraction of text from a PDF document such a hassle

When I use a text editing tool such as Microsoft Word then it is quite natural that I can select a portion of text and copy it to the clipboard and paste it in to a window of any other tool. Not so with PDF. At least not with any kind of document. Why is that?