Daten, mit denen Sie mehr erreichen können: Conversion Service-Workflows mit OCR können jetzt XML-Dateien ausgeben

Wir haben den Pdftools Conversion Service um eine neue Funktion erweitert, die mithilfe von OCR strukturierte Daten aus über 50 unterstützten Dateitypen extrahiert und in eine XML-Datei ausgibt. Kunden können diese Daten dann verwenden und nachgelagert integrieren, beispielsweise mithilfe von LLMs und RAG.

Bislang wurden durch die Anwendung von OCR (Optical Character Recognition) in einem Conversion Service Workflow unstrukturierte Dateien einfach in PDF- und PDF/A-Dateien mit auswählbarem Text umgewandelt. Die unstrukturierten Daten wurden jedoch nicht für den Kunden sichtbar gemacht. Mit der neuen Funktion können Sie nicht nur PDF-Dateien ausgeben, sondern auch die Struktur der Eingabedatei selbst als XML-Datei. Auf diese Weise können Sie sie für beliebige Zwecke verwenden.


Mögliche Anwendungsbereiche sind die Datenanalyse und RAG (Retrieval-Augmented Generation), die es LLMs ermöglicht, auf externes Wissen zuzugreifen. Oder vielleicht müssen Sie eine Anforderung erfüllen, die unstrukturierten Daten zu speichern und zu archivieren, um die Unternehmensrichtlinien oder Branchenstandards einzuhalten.

Ausgabe von Dateien, die sowohl für Menschen als auch für Computer geeignet sind

Nehmen wir zum Beispiel eine PDF-Datei als Ausgangsdatei. PDFs eignen sich hervorragend, um Informationen an Menschen zu vermitteln und für die Zukunft zu bewahren. Das Dateiformat bewahrt Text, Bilder und Layout sehr gut. Allerdings fehlt den Daten in PDFs eine klare Struktur, die leicht extrahiert werden kann. Sie haben vielleicht ein optisch ansprechendes Dokument, das Menschen instinktiv in der richtigen Reihenfolge lesen können, aber für einen Computer ist dieselbe Datei nur eine Ansammlung von Pixeln und Glyphen ohne klare Lesereihenfolge.


Wenn wir Dateien aus Bildern oder anderen PDFs in PDF konvertieren, nehmen wir eine Eingabedatei und verwenden OCR (Optical Character Recognition), um sie in ein PDF oder PDF/A umzuwandeln, das durchsuchbar ist. Text kann ausgewählt, kopiert, markiert, mit Anmerkungen versehen werden und so weiter. Aber das PDF selbst besteht immer noch aus relativ unstrukturierte Daten, die nicht weiterverarbeitet oder in einer Datenpipeline verwendet werden können.

Wie man unstrukturierte Daten in strukturierte Daten umwandelt

Während des PDF Conversion Service Workflows passiert im Hintergrund viel mehr, als wir sehen, wenn die endgültige Ausgabe nur PDF oder PDF/A ist.


OCR zerlegt zunächst die ursprüngliche PDF-Datei – oder jeden anderen unterstützten Dateityp – in unstrukturierte Daten und speichert diese in einer XML-Datei. Die XML-Datei zeichnet den Inhalt selbst auf, liefert Details zu jedem erkannten Wort, einschließlich der erkannten Zeichen und ihrer Positionen, und ordnet die Wörter kontextuell innerhalb eines Textblocks, Absatzes und einer Zeile ein. Sie kann sogar anzeigen, wie sicher die OCR-Engine bei ihrer Interpretation ist, da die Engine beispielsweise mit ungewöhnlichen Wörtern oder Eigennamen Schwierigkeiten haben könnte.


Auf der Grundlage der XML-Datei wird dann die Ausgabedatei erstellt, indem eine visuelle Darstellung der strukturierten Daten in der XML-Datei erstellt wird. Die endgültige PDF-Datei sieht identisch mit der Eingabedatei aus, aber der Text kann nun ausgewählt und kopiert werden. Und die Daten aus der XML-Datei selbst können separat verwendet und weiterverarbeitet werden.

Mehr Möglichkeiten für unsere Kunden

In der Vergangenheit haben wir unseren Kunden nur die endgültige PDF-Datei zur Verfügung gestellt, damit sie darin suchen, sie archivieren oder alles andere tun konnten, was sie damit tun mussten. Da LLMs und RAG jedoch mittlerweile einen so großen Teil der Arbeitsabläufe vieler Unternehmen ausmachen, bieten wir den Benutzern nun die Möglichkeit, die XML-Datei selbst auszugeben. Auf diese Weise können sie auf diese unstrukturierten Daten in ihrer Rohform zugreifen und sie nutzen, was ihnen mehr Flexibilität und geschäftliche Möglichkeiten bietet.

Verwenden Sie den Pdftools Conversion Service, um XML-Dateien auszugebenn

Fordern Sie eine Demo oder eine Lizenz für den Conversion Service in Ihrem Pdftools Portal an.

Gefällt Ihnen, was Sie sehen? Teilen Sie es mit einem Freund.