Optimiert die Aufträge an die OCR-Engine zum Minimieren des Volumens
Java | .NET | C/C++ | Kommandozeile
3-Heights™ PDF OCR optimiert PDF Dokumente durch den Einsatz von Daten, die von einer OCR-Engine erfasst wurden.
PDF OCR unterstützt Dokumentenprozesse vom Eingang bis zur Ablage in einem digitalen Archiv. Es werden gescannte Bilder und eingebettete Bilder in digital erzeugten Dokumenten lesbar gemacht. Zudem werden die fehlenden Unicodes bei eingebetteten Schriften ergänzt, so dass auch diese Texte lesbar werden. Alle erkannten Texte werden in das Dokument eingebettet und macht es so durchsuchbar. Diese Texte können durch weitere Werkzeuge auch jederzeit extrahiert werden.
PDF OCR optimiert die Aufträge an die OCR-Engine, um das Volumen der erkannten Seiten zu minimieren.
Das Werkzeug erleichtert die Arbeitsschritte in einem Dokumentenverarbeitungsprozess, wie die Klassifizierung, Einordnung, Indexierung und das Anreichern von Metadaten in den Dokumenten.
Erkenne Text in einem PDF Dokument mittels OCR und bette diesen ins Dokument ein. Setze die OCR Engine und zugehörige Parameter.
// Open input document
using (Stream inStream = File.OpenRead(inPath))
using (Document inDoc = Document.Open(inStream, null))
// Open output document
using (Stream outStream = File.Create(outPath))
{
// Create OCR engine
using (Engine engine = Engine.Create(engineName))
{
// Set process parameters
engine.SetParameters(engineParams);
OcrParams ocr = new OcrParams();
ocr.Engine = engine;
ImageOcrParams imageOcr = new ImageOcrParams();
imageOcr.Mode = ImageOcrMode.UpdateText;
TextOcrParams textOcr = new TextOcrParams();
textOcr.Mode = TextOcrMode.Update;
// Process document
WarningList warnings = inDoc.Process(outStream, null, ocr, imageOcr, textOcr, null, null);
}
}
try (// Open input document
FileStream inStream = new FileStream(inPath, "r");
Document inDoc = Document.open(inStream, null)) {
try (// Create output document
FileStream outStream = new FileStream(outPath, "rw")) {
outStream.setLength(0);
// Create OCR engine
try (Engine engine = Engine.create(engineName)) {
// Set process parameters
engine.setParameters(engineParams);
OcrParams ocr = new OcrParams();
ocr.setEngine(engine);
ImageOcrParams imageOcr = new ImageOcrParams();
imageOcr.setMode(ImageOcrMode.UPDATE_TEXT);
TextOcrParams textOcr = new TextOcrParams();
textOcr.setMode(TextOcrMode.UPDATE);
// Process document
inDoc.process(outStream, null, ocr, imageOcr, textOcr, null, null);
}
}
}
Qualitätssicherung
Schlichte, schlanke und ISO-konforme PDF-Dokumente ohne Qualitäts- und Informationsverlust.
Kosteneffizienz
Effiziente und kostensparende OCR-Verarbeitung auf hohem Niveau.
Zeit
Effiziente Verarbeitung dank der 3-Heights™-Architektur. Schnelle Dokumentenanzeige, kurze Download- und Durchsuchungszeiten.
When I use a text editing tool such as Microsoft Word then it is quite natural that I can select a portion of text and copy it to the clipboard and paste it in to a window of any other tool. Not so with PDF. At least not with any kind of document. Why is that?