3-Heights® PDF OCR - optische Texterkennung

3-Heights® PDF OCR optimiert PDF Dokumente durch den Einsatz von Daten, die von einer OCR-Engine erfasst wurden.

Texterkennung

Einbettung von gefundenen Textelementen aus Dokumenten, Bildern oder Grafiken

Tags für Barrierefreiheit

Vorbereitung von Dokumenten für die Konvertierung zu PDF/A Level A

Barcode- und QR-Code-Erkennung

Extraktion von gefundenen Codes und Einbettung in Metadaten

logo

3-Heights™ Tools für Digitalisierung eines umfangreichen Papierarchives

Infolge eines Standortwechsels entschied sich das Unternehmen, die Papierakten in die digitale Form umzuwandeln. Die Anforderung war, dass die Software ihre Aufgabe stabil und in zuverlässiger Qualität erfüllen muss und auch im Fehlerfall keine nicht nachvollziehbaren Sachverhalte entstehen dürfen.
logo

PDF/A-Wandlung mit OCR-Erkennung für Dokumentenmanagement bei der VolkswagenStiftung

Im bisherigen Dokumentenmanagement-System (DMS) der VolkswagenStiftung waren viele unterschiedliche Arten von PDF-, Office- und Bild-Dokumenten sowie E-Mails abgelegt. Zukünftig sollten die Bild- und PDF-Dokumente in das einheitliche Langzeitarchivformat PDF/A konvertiert werden.
3-Heights® PDF OCR – optische Texterkennung Produktgraphik

PDF OCR - Funktionen

  • Textinhalte extrahierbar machen
    • Textinhalte aus Bildern
    • Textinhalte mit Schriftarten ohne Unicode-Kennzahlen
    • Textinhalte, die mithilfe von Vektorgrafiken erstellt wurden (z. B. CAD-Zeichnungen)
    • Alle sichtbaren Textinhalte, unabhängig von der Art der verwendeten Grafikobjekte
  • Scans optimieren
    • Gescannte Bilder gerade rücken
    • Seiten entsprechend der erkannten Ausrichtung des Scans drehen
  • Barcodes und QR-Codes erfassen
  • Eingebettete Dateien verarbeiten
  • Tagging von OCR-Textinhalten für Barrierefreiheit
  • Hohe Leistungsfähigkeit
    • Asynchrone Verarbeitung
    • Seitenanalyse und Ergebnis-Caching zur Minimierung von OCR-Vorgängen
  • Hohe Qualität
    • PDF/A-konform
    • Zuverlässige Konvertierung von bestehenden Inhalten
    • 3-Heights™ PDF Rendering Engine 2.0.
    • Automatische Erkennung von optimaler OCR-Auflösung

Conformance

  • ISO 32000-1 (PDF 1.7)
  • ISO 32000-2 (PDF 2.0)
  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 19005-3 (PDF/A-3)
Powered by 3‑Heights® TechnologyPDF/A compliant

Unterstützte Formate

Input and output formats

  • PDF 1.0 to PDF 1.7
  • PDF 2.0
  • PDF/A-1, PDF/A-2, PDF/A-3

HANDBÜCHER

API

Einsatzbereiche - Textinhalte in Dokumenten erfassen und erkennen

Texterkennung im Dokumentenprozess

PDF OCR unterstützt Dokumentenprozesse vom Eingang bis zur Ablage in einem digitalen Archiv. Es werden gescannte Bilder und eingebettete Bilder in digital erzeugten Dokumenten lesbar gemacht. Zudem werden die fehlenden Unicodes bei eingebetteten Schriften ergänzt, so dass auch diese Texte lesbar werden. Alle erkannten Texte werden in das Dokument eingebettet und macht es so durchsuchbar. Diese Texte können durch weitere Werkzeuge auch jederzeit extrahiert werden.

PDF OCR optimiert die Aufträge an die OCR-Engine, um das Volumen der erkannten Seiten zu minimieren.

Das Werkzeug erleichtert die Arbeitsschritte in einem Dokumentenverarbeitungsprozess, wie die Klassifizierung, Einordnung, Indexierung und das Anreichern von Metadaten in den Dokumenten.

Kontakt aufnehmen

Text in einem Dokument extrahierbar machen

Erkenne Text in einem PDF Dokument mittels OCR und bette diesen ins Dokument ein. Setze die OCR Engine und zugehörige Parameter.

C# sample:
// Open input document
using (Stream inStream = File.OpenRead(inPath))
using (Document inDoc = Document.Open(inStream, null))

// Open output document
using (Stream outStream = File.Create(outPath))
{
    // Create OCR engine
    using (Engine engine = Engine.Create(engineName))
    {
        // Set process parameters
        engine.SetParameters(engineParams);

        OcrParams ocr = new OcrParams();
        ocr.Engine = engine;

        ImageOcrParams imageOcr = new ImageOcrParams();
        imageOcr.Mode = ImageOcrMode.UpdateText;

        TextOcrParams textOcr = new TextOcrParams();
        textOcr.Mode = TextOcrMode.Update;

        // Process document
        WarningList warnings = inDoc.Process(outStream, null, ocr, imageOcr, textOcr, null, null);
    }
}
C# sample:

Diese Möglichkeiten bietet Ihnen 3-Heights® PDF OCR

  • Optimiertes Seitenvolumen für die OCR-Engine
  • Einsetzbar für die individuelle Verarbeitung sowie die Massenverarbeitung
  • Leistungsfähige Komponenten, die sich durch hohe Stabilität, Qualität und Skalierbarkeit auszeichnen

Qualitätssicherung

Schlichte, schlanke und ISO-konforme PDF-Dokumente ohne Qualitäts- und Informationsverlust.

Kosteneffizienz

Effiziente und kostensparende OCR-Verarbeitung auf hohem Niveau.

Zeit

Effiziente Verarbeitung dank der 3-Heights®-Architektur. Schnelle Dokumentenanzeige, kurze Download- und Durchsuchungszeiten.