3-Heights™ PDF OCR – reconnaissance de texte pour des outils PDF

3-Heights™ PDF OCR améliore les documents PDF en utilisant les informations détectées par un moteur OCR.

Reconnaissance de texte

Intégrer tous les éléments de texte trouvés dans les documents, y compris dans les métadonnées

Des balises pour l’accessibilité

Préparer les documents pour la conversion PDF/A niveau A

Détecter les codes-barres et codes QR

Extraire les données intégrées et les intégrer dans les métadonnées

PDF OCR - améliore les documents PDF en utilisant les informations détectées par un moteur OCR

PDF OCR - fonctions

  • Rendre le texte extractible
    • Texte contenu dans les images
    • Texte avec polices sans informations Unicode
    • Texte écrit à l’aide de graphiques vectoriels (p. ex. dans les dessins CAO)
    • Tout texte visible, quel que soit le type d’objets graphiques utilisés
  • Améliorer un scan
    • Redresser des images scannées
    • Pivoter les pages selon la rotation détectée du scan
  • Détecter les codes-barres et codes QR
  • Traiter les fichiers intégrés
  • Balisage de texte OCR pour l’accessibilité
  • Haute performance
    • Traitement asynchrone
    • Analyse de page et mise en cache des résultats afin de réduire les opérations OCR
  • Haute qualité
    • Conforme PDF/A
    • Conversion haute fidélité de contenu de page existant
    • Moteur de rendu PDF 2.0. 3-Heights™
    • Détection automatique de la résolution OCR optimale

Conformance

  • ISO 32000-1 (PDF 1.7)
  • ISO 32000-2 (PDF 2.0)
  • ISO 19005-1 (PDF/A-1)
  • ISO 19005-2 (PDF/A-2)
  • ISO 19005-3 (PDF/A-3)
Powered by 3-Heights™ Technology and PDF/A compliant

Formats supportées

Formats d’entrée et formats de sortie

  • PDF 1.0 à PDF 1.7
  • PDF 2.0
  • PDF/A-1, PDF/A-2, PDF/A-3
Loupe grossissante pour nos manuels PDF et notre exemple de code PDF

MANUEL

API | SHELL

Domaines d'application - détecter et reconnaître le texte dans les documents

Reconnaissance de texte dans le processus documentaire

PDF OCR facilite les processus documentaires de l’entrée jusqu’au classement dans une archive numérique. Les images scannées et intégrées sont rendues lisibles dans les documents générés numériquement. De plus, les Unicodes manquants sont complétés pour les polices intégrées afin que ces textes soient également lisibles. Tous les textes reconnus sont intégrés dans le document et permettent ainsi la recherche. Ces textes peuvent également être extraits à tout moment à l’aide d’outils supplémentaires.

PDF OCR optimise les commandes du moteur d’OCR afin de réduire le volume des pages détectées.

L’outil facilite les étapes de travail dans un processus de traitement documentaire, comme la classification, la catégorisation, l’indexation et l’enrichissement des métadonnées dans les documents.

Vos avantages avec 3-Heights™ PDF OCR

    • Volume de pages optimisé pour le moteur OCR
    • Une conception polyvalente, pour le traitement individuel comme pour le traitement de masse
    • Un produit puissant, d’une grande qualité, très stable et évolutif

Assurance qualité
Des fichiers PDF propres, légers et conformes, sans perte de qualité ni d’information

Réduction des coûts
Traitement OCR de haut niveau, efficace et économique

Gain de temps
Traitement efficace des fichiers grâce à l’architecture 3-Heights™. Accès rapide aux documents, délais de téléchargement courts et facilité de recherche.

Why is the extraction of text from a PDF document such a hassle

When I use a text editing tool such as Microsoft Word then it is quite natural that I can select a portion of text and copy it to the clipboard and paste it in to a window of any other tool. Not so with PDF. At least not with any kind of document. Why is that?