Ce scénario sert à extraire toutes les données possibles d’un document et à les stocker de manière structurée. Le résultat est un fichier JSON qui représente la structure du document. Il contient tous les objets du document : texte imprimé et manuscrit, tableaux, codes-barres, coches et images, avec leur emplacement et leurs attributs. Ce format est optimal pour un traitement ultérieur, le stockage des données dans une base de données ou l’intégration à une autre application. Dans ce scénario, un document passe par plusieurs étapes de traitement :Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
- Prétraitement des images numérisées ou des photos Les images obtenues à l’aide d’un scanner ou d’un appareil photo numérique peuvent nécessiter quelques ajustements avant de pouvoir être reconnues par OCR. Par exemple, les images bruitées ou celles dont les lignes de texte sont déformées doivent être corrigées pour que la reconnaissance optique soit efficace.
- Extraction de toutes les données du document de manière structurée Lors de l’analyse de la mise en page, différents objets sont détectés dans l’image et regroupés en blocs du type correspondant. Les blocs sont reconnus selon les paramètres optimaux pour leur type. Lors de l’étape de synthèse, la structure logique du document est reconstituée de manière cohérente. L’ordre du texte est préservé, même pour les mises en page complexes, de façon à se rapprocher de l’ordre de lecture humain. Cela garantit qu’une nouvelle reconnaissance du même document produira le même ordre de lecture du texte.
- Export vers un format structuré Le document reconnu est enregistré au format JSON ou XML.
Mise en œuvre du scénario
Les exemples de code fournis dans cette rubrique sont spécifiques à Windows.
Étape 1. Chargement d’ABBYY FineReader Engine
Étape 1. Chargement d’ABBYY FineReader Engine
Pour commencer à utiliser ABBYY FineReader Engine, vous devez créer l’objet Engine. L’objet Engine est l’objet de plus haut niveau dans la hiérarchie des objets ABBYY FineReader Engine ; il fournit divers paramètres globaux, certaines méthodes de traitement ainsi que des méthodes permettant de créer les autres objets.Pour créer l’objet Engine, vous pouvez utiliser la fonction InitializeEngine. Consultez également les autres méthodes de chargement de l’objet Engine (Win).
C#
C++ (COM)
Étape 2. Chargement des paramètres du scénario
Étape 2. Chargement des paramètres du scénario
ABBYY FineReader Engine permet de charger tous les paramètres de traitement les mieux adaptés à ce scénario à l’aide de la méthode LoadPredefinedProfile de l’objet Engine. Cette méthode prend en entrée le nom du profil. Veuillez consulter Working with Profiles pour plus d’informations.Les paramètres de ce scénario sont disponibles dans le profil prédéfini DataExtraction :Si vous souhaitez modifier les paramètres de traitement, utilisez les objets Parameter correspondants. Veuillez consulter la section Additional optimization ci-dessous pour plus d’informations.
- L’analyse de la mise en page et la reconnaissance privilégient la précision plutôt que la vitesse.
- Détecte tout le texte d’une image, y compris le texte manuscrit et les petites zones de texte de faible qualité.
- Détecte les tableaux, les coches et les codes-barres.
- Effectue une synthèse complète de la structure logique d’un document.
C#
C++ (COM)
Étape 3. Chargement et prétraitement des images
Étape 3. Chargement et prétraitement des images
ABBYY FineReader Engine fournit l’objet FRDocument, qui permet de traiter des documents multipages. L’utilisation de cet objet vous permet de préserver l’organisation logique du document, en conservant le texte d’origine ainsi que les colonnes, polices, styles, etc.Pour charger et prétraiter les images d’un même document, vous devez créer l’objet FRDocument et y ajouter des images. Vous pouvez procéder de l’une des manières suivantes :
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocumentFromImage de l’objet Engine. Cette méthode crée l’objet FRDocument et charge les images à partir du fichier spécifié.
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocument de l’objet Engine, puis ajoutez des images au FRDocument créé à partir d’un fichier (utilisez la méthode AddImageFile, AddImageFileWithPassword ou AddImageFileWithPasswordCallback de l’objet FRDocument).
C#
C++ (COM)
Étape 4. Reconnaissance du document
Étape 4. Reconnaissance du document
Pour reconnaître un document, nous vous recommandons d’utiliser les méthodes d’analyse et de reconnaissance de l’objet FRDocument. Cet objet offre toute une série de méthodes pour l’analyse, la reconnaissance et la synthèse de documents. La méthode la plus pratique, qui regroupe en une seule opération l’analyse, la reconnaissance et la synthèse du document, est la méthode Process. Elle exploite également de la manière la plus efficace les fonctionnalités de traitement simultané des systèmes multiprocesseurs et multicœurs. Toutefois, vous pouvez aussi effectuer successivement le prétraitement, l’analyse, la reconnaissance et la synthèse à l’aide des méthodes Preprocess, Analyze, Recognize et Synthesize.
C#
C++ (COM)
Étape 5. Exportation du document
Étape 5. Exportation du document
Pour enregistrer un document reconnu, vous pouvez utiliser la méthode Export de l’objet FRDocument en passant la constante FileExportFormatEnum comme l’un des paramètres. Vous pouvez modifier les paramètres d’exportation par défaut à l’aide de l’objet d’exportation correspondant. Consultez la section Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.Une fois que vous avez terminé d’utiliser l’objet FRDocument, libérez toutes les ressources employées par cet objet. Utilisez la méthode IFRDocument::Close.
C#
C++ (COM)
Étape 6. Déchargement d’ABBYY FineReader Engine
Étape 6. Déchargement d’ABBYY FineReader Engine
Une fois que vous avez terminé d’utiliser ABBYY FineReader Engine, vous devez décharger l’objet Engine. Pour ce faire, utilisez la fonction exportée DeinitializeEngine.
C#
C++ (COM)
Ressources requises
Optimisation supplémentaire pour des tâches spécifiques
- Numérisation - Windows uniquement
- Numérisation
Description du scénario ABBYY FineReader Engine pour la numérisation de documents.
- Numérisation
- Reconnaissance
- Réglage des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
Personnalisation du traitement des documents à l’aide d’objets de paramètres d’analyse, de reconnaissance et de synthèse. - PageProcessingParams Object
Cet objet permet de personnaliser les paramètres d’analyse et de reconnaissance. À l’aide de cet objet, vous pouvez indiquer quelles caractéristiques de l’image et du texte doivent être détectées (image inversée, orientation, code-barres, langue de reconnaissance, marge d’erreur de reconnaissance). - SynthesisParamsForPage Object
Cet objet inclut les paramètres responsables de la restitution de la mise en forme d’une page lors de la synthèse. - SynthesisParamsForDocument Object
Cet objet permet de personnaliser la synthèse du document : restitution de sa structure et de sa mise en forme. - MultiProcessingParams Object - Implémenté pour Linux et Windows
Le traitement simultané peut être utile lors du traitement d’un grand nombre d’images. Dans ce cas, la charge de traitement est répartie entre les cœurs du processeur pendant l’ouverture et le prétraitement des images, l’analyse de la mise en page, la reconnaissance et l’exportation, ce qui permet d’accélérer le traitement.
Les modes de traitement (simultané ou consécutif) sont définis à l’aide de la propriété MultiProcessingMode. La propriété RecognitionProcessesCount contrôle le nombre de processus pouvant être démarrés.
- Réglage des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
- Exportation
- Réglage des paramètres d’exportation
Personnalisation de l’exportation du document à l’aide d’objets de paramètres d’exportation. - XMLExportParams Object
Cet objet fournit les paramètres d’exportation au format XML. - JsonExportParams Object
Cet objet fournit les paramètres d’exportation au format JSON.
- Réglage des paramètres d’exportation
