このセクションでは、ABBYY FineReader Engine の代表的な利用シナリオについて説明します。まずは、ご自身のタスクに最も適したシナリオを選んで、ABBYY FineReader Engine の使用を開始することをお勧めします。適切なシナリオが見つかったら、基本的な使用シナリオの実装 セクションで、そのシナリオの詳細な説明、実装に関するアドバイス、さらに特定のタスク向けにコードを最適化するための提案を確認できます。“Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
ドキュメント変換

このシナリオの結果として、ドキュメントの編集可能なバージョンが得られます。
このシナリオでは、文書画像が認識され、元の書式をすべて保持したまま、データが編集可能なファイル形式に保存されます。その結果、エラーの確認や修正が容易な編集可能なドキュメントが得られます。
詳細については、ドキュメント変換を参照してください。

この処理シナリオでは、紙のドキュメントが、すべての情報を検索可能な形式で含む編集不可のデジタルコピーに変換されます。この処理により、ドキュメントのデジタルコピーを全文検索で電子アーカイブから簡単に検索したり、テキスト部分をコピーしたり、メールで送信したり、印刷したりすることができます。
詳細については、ドキュメントアーカイブを参照してください。
データキャプチャ

このシナリオは、文書から可能な限り多くのデータを抽出し、構造化された形式で保存するために使用されます。
結果は、文書構造を表す JSON ファイルです。このファイルには、印字文字や手書き文字、表、バーコード、チェックマーク、画像など、すべての文書オブジェクトとその位置情報および属性が保存されます。この形式は、後続処理、データベースへの保存、他のアプリケーションとの連携に最適です。
詳細は データ抽出 を参照してください。

このシナリオでは、文書の本文テキストに加えて、ロゴ、印章、その他本文以外の要素上のテキストも抽出できます。
テキストの自然な順序、つまり「人が読む順序」が保持されます。その後、たとえば迅速な要約、機密情報の検索、感情分析などを行うために、お客様側の自然言語処理 (NLP) エンジンに文書を渡すことができます。
詳細は テキスト抽出 を参照してください。

フィールドレベル認識では、特定のフィールドからデータを取得するために、短いテキスト断片を認識します。このシナリオでは認識品質が非常に重要です。
このシナリオは、文書から意味のあるデータを抽出する、より複雑なシナリオの一部として使用することもできます (たとえば、紙文書から情報システムやデータベースにデータを取り込む場合や、文書管理システムで文書を自動的に分類してインデックス化する場合など) 。
このシナリオでは、システムは一部のフィールドにある複数行のテキスト、または小さな画像上のテキスト全体のいずれかを認識します。システムは認識した各文字について確信度を算出します。これらの確信度は、認識結果を確認する際に使用できます。さらに、システムはテキスト内の単語や文字について複数の候補を保存でき、認識品質を向上させるための投票アルゴリズムでそれらを利用できます。
詳細は フィールドレベル認識 を参照してください。

このシナリオでは、ABBYY FineReader Engine を使用してバーコードを読み取ります。バーコードの読み取りは、たとえば文書の自動分割、文書管理システムによる文書処理、文書のインデックス化や分類のために必要になる場合があります。
このシナリオは、他のシナリオの一部として使用することもできます。たとえば、高速プロダクションスキャナーでスキャンした文書をバーコードによって分割したり、長期保存用に準備した文書をバーコードの値に基づいてアーカイブ用の文書管理システムに格納したりできます。
テキストからバーコードを抽出する際、システムはすべてのバーコード、または特定の値を持つ特定の種類のバーコードだけを検出できます。システムはバーコードの値を取得し、そのチェックサムを計算できます。
認識したバーコードの値は、たとえば TXT など、後続処理に最も適した形式で保存できます。
詳細は バーコード認識 を参照してください。

名刺には、企業や個人に関する業務情報が記載されています。名刺には、氏名、会社名、電話番号、ファクス番号、電子メール、Web サイトのアドレスなどの情報を含めることができます。こうした情報を紙の名刺から取り込み、電子形式で保存したい場合があります。保存先としては、携帯電話のアドレス帳、電子メールクライアント、その他のデータ保存システムが考えられます。たとえば、名刺は vCard 形式で電子メールやネットワーク経由でやり取りされることがよくあります。
詳細は 名刺認識 を参照してください。

多くの国の公的な渡航書類や身分証明書には、文書データをより正確に処理するための機械読み取り領域 (MRZ) が含まれています。
このシナリオは、顧客のオンボーディングや確認プロセスにおいて、身分証明書上の機械読み取り領域からデータを抽出するために使用されます。システムは文書画像上のMRZを認識し、 そこからデータを抽出します。抽出されたデータには、文書とその所持者に関する個人情報を含む複数のフィールド (文書の種類、有効期限、所持者の名と姓 など) が含まれます。フィールドを検索し、データを確認して、後続の処理のために外部ファイルへ保存できます。
詳細については、Machine-Readable Zone Captureを参照してください。
その他

このシナリオでは、ABBYY FineReader Engine を「スキャン用コンピューター」で使用し、画像をスキャンしてファイルとして保存します。
このシナリオは、文書処理の準備段階で、後続処理のために文書の電子版を取得する用途として、ほかのシナリオの一部として使用できます。使用例としては、アーカイブ目的の文書スキャン、文書の編集可能な版の取得、文書からの有用なデータの抽出などがあります。
紙の文書をスキャンし、その画像を電子形式で保存することで、印刷文書の高品質な電子版を作成できます。
詳しくはスキャンを参照してください。

文書分類とは、文書をユーザー定義のカテゴリのいずれかに割り当てることです。たとえば、契約書、請求書、領収書など、複数の種類の文書で構成される文書フローを扱うことがあります。 その場合は、各文書の種類を識別する必要があります。たとえば、文書を種類ごとに別々のフォルダーへ振り分けたり、種類に応じて名前を変更したりする場合です。 これは、事前学習済みのシステムを使って自動化できます。
このシナリオの主なポイントは、処理対象となる文書の種類があらかじめ分かっていることです。ABBYY FineReader Engine は、文書の外観または内容に基づいて文書を分類できます。
詳しくは文書分類を参照してください。

紙の文書を扱う際には、誤りや意図的に加えられた変更を見つけて修正する必要があります。
このシナリオは、契約書や銀行関連書類などの重要な文書を、そのコピーと比較するために使用されます。比較結果には、内容の種類 (テキストのみ) 、変更の種類 (削除、挿入、または修正) 、およびそれらが元の文書とコピーのどこにあるかに関する情報が含まれます。検出された差異の一覧や、 任意の変更箇所の領域を取得し、比較結果を後続処理や長期保存のために外部ファイルに保存できます。
詳しくはドキュメント比較を参照してください。
