Le résultat de ce scénario est une version modifiable d’un document. Dans ce scénario, les images de documents sont reconnues tout en conservant intégralement la mise en forme d’origine, puis les données sont enregistrées dans un format de fichier modifiable. Vous obtenez ainsi des versions modifiables de vos documents, faciles à vérifier pour détecter d’éventuelles erreurs et à modifier. Vous pouvez également copier tout ou partie du texte pour le réutiliser. Un document passe par plusieurs étapes de traitement, qui diffèrent à certains égards des autres scénarios courants :Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
- Prétraitement des images numérisées ou des photos
- Reconnaissance avec restauration complète de la structure et de la mise en forme du document
- Exportation vers un format modifiable
Mise en œuvre du scénario
Les exemples de code fournis dans cette rubrique sont spécifiques à Windows.
Étape 1. Chargement d’ABBYY FineReader Engine
Étape 1. Chargement d’ABBYY FineReader Engine
Pour commencer à utiliser ABBYY FineReader Engine, vous devez créer l’objet Engine. L’objet Engine est l’objet de plus haut niveau dans la hiérarchie des objets ABBYY FineReader Engine ; il fournit divers paramètres globaux, certaines méthodes de traitement, ainsi que des méthodes permettant de créer les autres objets.Pour créer l’objet Engine, vous pouvez utiliser la fonction InitializeEngine. Voir aussi les autres façons de charger l’objet Engine (Win).
C#
C++ (COM)
Étape 2. Chargement des paramètres du scénario
Étape 2. Chargement des paramètres du scénario
ABBYY FineReader Engine permet de charger, à l’aide de la méthode LoadPredefinedProfile de l’objet Engine, l’ensemble des paramètres de traitement les mieux adaptés à ce scénario. Cette méthode prend le nom du profil en paramètre d’entrée. Veuillez consulter Working with Profiles pour plus d’informations.ABBYY FineReader Engine prend en charge 2 jeux de paramètres pour ce scénario :
Si vous souhaitez modifier les paramètres de traitement, utilisez les objets Parameter appropriés. Veuillez consulter Additional optimization for specific tasks ci-dessous pour plus d’informations.
Nom du profil | Description |
|---|---|
DocumentConversion_Accuracy | Les paramètres ont été optimisés pour la précision :
|
DocumentConversion_Normal | Les paramètres ont été optimisés pour la vitesse de traitement :
|
C#
C++ (COM)
Étape 3. Chargement et prétraitement des images
Étape 3. Chargement et prétraitement des images
ABBYY FineReader Engine fournit l’objet FRDocument, qui permet de traiter des documents multipages. L’utilisation de cet objet vous permet de préserver l’organisation logique du document, en conservant le texte d’origine, les colonnes, les polices, les styles, etc.Pour charger les images d’un document unique et les prétraiter, vous devez créer l’objet FRDocument et y ajouter des images. Vous pouvez procéder de l’une des façons suivantes :
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocumentFromImage de l’objet Engine. Cette méthode crée l’objet FRDocument et charge les images à partir du fichier spécifié.
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocument de l’objet Engine, puis ajoutez à l’objet FRDocument créé des images à partir d’un fichier (utilisez la méthode AddImageFile, AddImageFileWithPassword ou AddImageFileWithPasswordCallback de l’objet FRDocument).
C#
C++ (COM)
Le prétraitement des images avec le profil DocumentConversion_Normal chargé n’inclut pas la détection de l’orientation. Si vous souhaitez que l’orientation de l’image soit détectée automatiquement, vous devrez configurer des paramètres supplémentaires et transmettre l’objet correspondant à la fonction de prétraitement. Veuillez consulter Additional optimization for specific tasks ci-dessous pour plus d’informations.
Étape 4. Reconnaissance du document
Étape 4. Reconnaissance du document
Pour reconnaître un document, nous vous recommandons d’utiliser les méthodes d’analyse et de reconnaissance de l’objet FRDocument. Cet objet fournit toute une série de méthodes pour l’analyse, la reconnaissance et la synthèse de documents. La méthode la plus pratique, qui combine l’analyse, la reconnaissance et la synthèse du document en une seule opération, est la méthode Process. Elle exploite également de la manière la plus efficace les fonctionnalités de traitement simultané des systèmes multiprocesseurs et multicœurs. Toutefois, vous pouvez aussi effectuer successivement le prétraitement, l’analyse, la reconnaissance et la synthèse à l’aide des méthodes Preprocess, Analyze, Recognize et Synthesize.
C#
C++ (COM)
Étape 5. Exportation du document
Étape 5. Exportation du document
Pour enregistrer un document reconnu, vous pouvez utiliser la méthode Export de l’objet FRDocument en passant la constante FileExportFormatEnum comme l’un des paramètres. Vous pouvez modifier les paramètres d’exportation par défaut à l’aide de l’objet d’exportation correspondant. Pour plus d’informations, consultez la section Optimisation supplémentaire pour des tâches spécifiques ci-dessous.Une fois le traitement de l’objet FRDocument terminé, libérez toutes les ressources utilisées par cet objet. Utilisez la méthode IFRDocument::Close.
C#
C++ (COM)
Étape 6. Déchargement d’ABBYY FineReader Engine
Étape 6. Déchargement d’ABBYY FineReader Engine
Après avoir terminé d’utiliser ABBYY FineReader Engine, vous devez décharger l’objet Engine. Pour cela, utilisez la fonction exportée DeinitializeEngine.
C#
C++ (COM)
Ressources requises
Optimisation supplémentaire pour des tâches spécifiques
- Numérisation - Windows uniquement
- Numérisation
Description du scénario ABBYY FineReader Engine pour la numérisation de documents.
- Numérisation
- Reconnaissance
- Ajustement des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
Personnalisation du traitement des documents à l’aide des objets de paramètres d’analyse, de reconnaissance et de synthèse. - Reconnaître l’écriture manuscrite
Les profils DocumentConversion_*** n’incluent pas la reconnaissance de texte manuscrit ou en lettres détachées. Si vous devez reconnaître de l’écriture manuscrite, définissez la propriété DetectHandwritten de l’objet PageAnalysisParams sur TRUE. - Objet PageProcessingParams
Cet objet permet de personnaliser les paramètres d’analyse et de reconnaissance. À l’aide de cet objet, vous pouvez indiquer quelles caractéristiques de l’image et du texte doivent être détectées (image inversée, orientation, codes-barres, langue de reconnaissance, marge d’erreur de reconnaissance). - Objet SynthesisParamsForPage
Cet objet inclut les paramètres responsables de la restauration de la mise en forme d’une page lors de la synthèse. - Objet SynthesisParamsForDocument
Cet objet permet de personnaliser la synthèse du document : restauration de sa structure et de sa mise en forme. - Objet MultiProcessingParams - Disponible pour Linux et Windows
Le traitement simultané peut être utile lors du traitement d’un grand nombre d’images. Dans ce cas, la charge de traitement est répartie entre les cœurs du processeur pendant l’ouverture et le prétraitement des images, l’analyse de la mise en page, la reconnaissance et l’exportation, ce qui permet d’accélérer le traitement.
Les modes de traitement (simultané ou consécutif) sont définis à l’aide de la propriété MultiProcessingMode. La propriété RecognitionProcessesCount contrôle le nombre de processus pouvant être démarrés.
- Ajustement des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
- Exportation
- Ajustement des paramètres d’exportation
Personnalisation de l’exportation du document à l’aide d’objets de paramètres d’exportation. - Objet RTFExportParams
Cet objet permet de personnaliser les paramètres d’enregistrement au format RTF/DOCX/ODT. - Objet HTMLExportParams
Cet objet permet de personnaliser l’exportation au format HTML. - Objet PPTExportParams
Objet permettant de personnaliser les paramètres d’enregistrement au format PPTX.
- Ajustement des paramètres d’exportation
