Dokumente mit OCR durchsuchbar machen

Verwandeln Sie gescannte und digitale Dokumente mit Optical Character Recognition (OCR) in durchsuchbare, bearbeitbare PDFs und holen Sie mehr aus Ihren Dokumenten heraus.

Demo buchen Dokumentation ansehen

OCR in Ihre Dokumentenpipeline integrieren

PDF SDK

Programmatische OCR-Verarbeitung

PDFs programmatisch in .NET, Java, Python oder C verarbeiten.

Das Pdftools SDK nutzen, um das integrierte OCR-Modul aufzurufen
Text in gescannten Bildern erkennen
Nicht extrahierbaren Text in nativ-digitalen PDFs korrigieren

Mit dem Pdftools SDK starten.

Produkt ansehen

Conversion Service

OCR für über 50 Dateiformate konfigurieren

OCR als Teil Ihrer Dokumentenautomatisierungspipeline.

Für automatisierte, hochvolumige Workflows ausgelegt
Als Verarbeitungsschritt innerhalb eines Workflows konfiguriert
Option zur Ausgabe einer XML-Datei für strukturierte Daten

Das OCR Service Add-on für den Conversion Service erhalten.

Produkt ansehen

OCR – Funktionsumfang

Text erkennen

Erkennt Text in gescannten Bildern und PDFs und macht sie durchsuchbar und bearbeitbar.

Tabellen erkennen

Erkennt Tabellen, Barcodes, technische Zeichnungen und andere komplexe Layoutelemente.

Textebene hinzufügen

Bettet eine unsichtbare Textebene im Unicode-Format ein, ohne das Erscheinungsbild zu verändern.

Automatische Korrektur

Automatische Schräglagenkorrektur, Rotation und Auflösungsanpassung.

Keine unnötigen Prozesse

Erkennt, welche Elemente OCR erfordern, und verarbeitet nur diese.

Über 180 Sprachen

Unterstützt mehr als 180 natürliche und technische Sprachen.

Mehr über den OCR Service und seinen Funktionsumfang erfahren

Dokumentation ansehen

OCR in Dokumenten-Workflows

Das SDK nimmt PDFs als Eingabe und gibt PDFs mit einer unsichtbaren Textebene aus. Der Conversion Service verarbeitet eines der über 50 vom Conversion Service unterstützten Dateiformate; die Ausgabe kann eine PDF- oder XML-Datei sein.

Text erkennen

Text in gescannten Bildern erkennen und OCR darauf anwenden.

Nicht extrahierbaren Text korrigieren

Nicht extrahierbaren Text in nativ-digitalen PDFs durch Hinzufügen von Unicode-Mappings korrigieren.

Ganze Seiten verarbeiten

Ganze Seiten verarbeiten und die Ergebnisse als OCR-Text hinzufügen.

Tagging hinzufügen

PDF-Tagging für Barrierefreiheits-Compliance hinzufügen.

XML für OCR-Qualitätsprüfungen und Audits extrahieren

Mit dem Conversion Service lässt sich die Genauigkeit von OCR-Ergebnissen prüfen, indem eine XML-Datei extrahiert wird, die Einblick in jeden zuvor angewendeten OCR-Prozess gibt. Der Workflow extrahiert OCR-relevante Informationen aus PDF-Dokumenten, gibt eine strukturierte XML-Datei mit detaillierten Daten aus und liefert einen Confidence-Score für den OCR-Prozess.

Das eröffnet Qualitätskontroll-Workflows: Ein niedriger Confidence-Score bei einem wichtigen Feld in einem gescannten Dokument ist ein Signal, dieses Dokument zur manuellen Überprüfung weiterzuleiten, anstatt es weiter zu verarbeiten. Zudem hat die XML-Datei einen Audit- und rechtlichen Wert, da sie einen strukturierten, zeitgestempelten Nachweis der OCR-Interpretation liefert – nicht nur das Endergebnis.

Dokumentation ansehen