3-Heights® PDF OCR - reconnaissance de texte pour des outils PDF

3-Heights® PDF OCR améliore les documents PDF en utilisant les informations détectées par un moteur OCR.

Reconnaissance de texte

Intégrer tous les éléments de texte trouvés dans les documents, y compris dans les métadonnées

Des balises pour l’accessibilité

Préparer les documents pour la conversion PDF/A niveau A

Détecter les codes-barres et codes QR

Extraire les données intégrées et les intégrer dans les métadonnées

logo

Les outils 3-Heights™ pour numériser de vastes archives papier

En raison d'un déménagement, l'entreprise a décidé de convertir tous ses dossiers papier au format numérique. L'exigence était que le logiciel devait accomplir sa tâche de manière stable avec une qualité fiable, et en cas d'erreur, aucune circonstance introuvable ne pouvait survenir.
logo

Conversion PDF/A avec reconnaissance OCR pour la gestion des documents de la Fondation Volkswagen

La Fondation Volkswagen avait de nombreux types différents de documents PDF et bureautiques, d'images et d'e-mails stockés dans leur ancien système de gestion de documents (DMS). Pour l'avenir, tous les documents image et PDF devaient être convertis dans le format standardisé d'archivage à long terme PDF/A.
3-Heights® PDF OCR – reconnaissance de texte pour des outils PDF - Produit

PDF OCR - Fonctions

  • Rendre le texte extractible
    • Texte contenu dans les images
    • Texte avec polices sans informations Unicode
    • Texte écrit à l’aide de graphiques vectoriels (p. ex. dans les dessins CAO)
    • Tout texte visible, quel que soit le type d’objets graphiques utilisés
  • Améliorer un scan
    • Redresser des images scannées
    • Pivoter les pages selon la rotation détectée du scan
  • Détecter les codes-barres et codes QR
  • Traiter les fichiers intégrés
  • Balisage de texte OCR pour l’accessibilité
  • Haute performance
    • Traitement asynchrone
    • Analyse de page et mise en cache des résultats afin de réduire les opérations OCR
  • Haute qualité
    • Conforme PDF/A
    • Conversion haute fidélité de contenu de page existant
    • Moteur de rendu PDF 2.0. 3-Heights™
    • Détection automatique de la résolution OCR optimale

Conformance

  • ISO 32000-1 (PDF 1.7)
  • ISO 32000-2 (PDF 2.0)
  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 19005-3 (PDF/A-3)
Powered by 3‑Heights® TechnologyPDF/A compliant

Formats supportée

Input and output formats

  • PDF 1.0 to PDF 1.7
  • PDF 2.0
  • PDF/A-1, PDF/A-2, PDF/A-3

Domaines d’application - détecter et reconnaître le texte dans les documents

Reconnaissance de texte dans le processus documentaire

PDF OCR facilite les processus documentaires de l’entrée jusqu’au classement dans une archive numérique. Les images scannées et intégrées sont rendues lisibles dans les documents générés numériquement. De plus, les Unicodes manquants sont complétés pour les polices intégrées afin que ces textes soient également lisibles. Tous les textes reconnus sont intégrés dans le document et permettent ainsi la recherche. Ces textes peuvent également être extraits à tout moment à l’aide d’outils supplémentaires.

PDF OCR optimise les commandes du moteur d’OCR afin de réduire le volume des pages détectées.

L’outil facilite les étapes de travail dans un processus de traitement documentaire, comme la classification, la catégorisation, l’indexation et l’enrichissement des métadonnées dans les documents.

Contactez-nous

Make all text in a document extractable

Recognize text in a PDF document using OCR and embed it into the document. Set the OCR engine and its parameters.

C# sample:
// Open input document
using (Stream inStream = File.OpenRead(inPath))
using (Document inDoc = Document.Open(inStream, null))

// Open output document
using (Stream outStream = File.Create(outPath))
{
    // Create OCR engine
    using (Engine engine = Engine.Create(engineName))
    {
        // Set process parameters
        engine.SetParameters(engineParams);

        OcrParams ocr = new OcrParams();
        ocr.Engine = engine;

        ImageOcrParams imageOcr = new ImageOcrParams();
        imageOcr.Mode = ImageOcrMode.UpdateText;

        TextOcrParams textOcr = new TextOcrParams();
        textOcr.Mode = TextOcrMode.Update;

        // Process document
        WarningList warnings = inDoc.Process(outStream, null, ocr, imageOcr, textOcr, null, null);
    }
}
C# sample:

Vos avantages avec 3-Heights® PDF OCR

  • Volume de pages optimisé pour le moteur OCR
  • Une conception polyvalente, pour le traitement individuel comme pour le traitement de masse
  • Un produit puissant, d’une grande qualité, très stable et évolutif

Assurance qualité

Des fichiers PDF propres, légers et conformes, sans perte de qualité ni d’information

Réduction des coûts

Traitement OCR de haut niveau, efficace et économique

Gain de temps

Traitement efficace des fichiers grâce à l’architecture 3-Heights®. Accès rapide aux documents, délais de téléchargement courts et facilité de recherche.