Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
| 機能 | 説明 |
|---|
| 新しい「Compare Documents」モジュール | 文書の整合性をすばやく確認するために、ABBYY FineReader Engine の新しい「Compare Documents」モジュールでは、同一文書の2つのバージョン間にある内容の違いを検出できます。 |
| バイリンガル文書の比較 | 「Compare Documents」モジュールの新しいオプションでは、このような文書がバイリンガルであり、複雑なレイアウトを持つことを自動的に検出し、各列 (つまり各言語版) を個別に比較できます。 |
| Feature | Description |
|---|
| Office ドキュメントの処理 | FineReader Engine は、幅広い画像形式に加えて、これらの Office 文書形式のいずれかで作成された入力文書も処理できるようになりました。
- テキスト文書: .doc, .docx, .rtf, .htm / .html, .txt, .odt
- 表計算: .xls, .xlsx, .ods
- プレゼンテーション: .ppt, .pptx, .odp
Microsoft Office または LibreOffice がシステムにインストールされている必要があります。 |
| 機能 | 説明 |
|---|
| 機械読取領域 (MRZ) からのデータ抽出 | この新機能により、ID文書の機械読取領域 (MRZ) からデータを自動抽出でき、顧客のオンボーディングや本人確認プロセスにおける個人情報の入力と検証を迅速化できます。 |
日本語Optical Character Recognition (OCR)の改善
| 機能 | 説明 |
|---|
| 業界最高水準の認識精度 | ABBYY Fine Reader Engineの新バージョンにより、日本語Optical Character Recognition (OCR)は大幅に向上し、認識精度は多くのソリューションではこれまで実現できなかった新たなレベルに達しました。 |
改良されたアラビア語Optical Character Recognition (OCR)
| 機能 | 説明 |
|---|
| 低品質画像に対するアラビア語のエンドツーエンド認識 | 一般的な技術では誤りが多く、信頼度の低い結果しか得られない低品質画像向けのアラビア語Optical Character Recognition (OCR)。 |
韓国語Optical Character Recognition (OCR)の改良
| 機能 | 説明 |
|---|
| 韓国語向けディープラーニング言語モデル | 韓国語向けに学習されたモデルが、認識候補の中から最適な単語認識結果を選択し、認識コンテキスト (前後の単語) に基づいて新たな候補を生成することもあります。 |
ニューラルネットワークベースの新しいOptical Character Recognition (OCR)技術
| 機能 | 説明 |
|---|
| Optical Character Recognition (OCR)技術の改良 | Optical Character Recognition (OCR)技術にニューラルネットワークの手法を導入することで、ABBYY FineReader Engine では手書きおよび手書き風文字のラテン文字の処理が強化されました。
- 単語候補を一貫して高精度に選択するための言語モデル
- 多言語文書を処理するためのラテン文字向けエンドツーエンド認識
|
| 機械学習によるバーコード認識技術 | このニューラルネットワークアーキテクチャでは、バーコードのおおよその領域を検出し、それを分類して、最も可能性の高いバーコード種類を持つ領域として出力する新しいバーコード認識モデルが導入されています。 |
| 新しい認識モード | 新しい Accurate モードでは、認識速度が適度に低下する代わりに、出力文書で最高品質の結果を得ることができます。このモードは、低品質の画像や写真から生成された請求書、契約書、領収書、IDカードに最適です。 |
印影や署名付近のテキストに対するOptical Character Recognition (OCR)品質の向上
| 機能 | 説明 |
|---|
| 印影や署名付近のテキストの検出 | 契約書に印影や署名が含まれる場合、それらの付近にあるテキストを分離して認識することで、処理後の文書品質が向上します。 |
| 機能 | 説明 |
|---|
| ネットワーク版およびスタンドアロン版でのオンライン ライセンスの利用 | FineReader Engine 12 の Developer’s Help に、SDK のさまざまなライセンス形態に関する情報が追加され、各ライセンス オプションの種類をわかりやすい比較表で説明しています。 |
| 猶予期間の利用 | この新しいオプションにより、ABBYY FineReader Engine ライセンスは有効期限後もしばらくの間使用できるため、ライセンスの有効期間を延長できます。 |
Linux版およびmacOS版でのICR/OMR技術
| 機能 | 説明 |
|---|
| 手書き文字およびチェックマークの認識 | ABBYY FineReader Engine 12では、手書き文字、手書き風文字、およびさまざまな種類のチェックマークを認識できます。ICRおよびOMR技術を実装することで、手書き文書からデータを抽出し、新たなデータ抽出ソリューションを開発できます。 |
| 機能 | 説明 |
|---|
| 新しいデプロイオプション | 新しいライセンス形態により、仮想環境およびクラウド環境へのデプロイが可能になり、より幅広いソリューションを提供できます。ライセンスの仕組みではインターネット接続が必要で、プロキシサーバーにも対応しています。
注: LinuxおよびWindows向けのFineReader Engineに適用されます。 |
Windows向けFREの.NET Coreラッパー
| 機能 | 説明 |
|---|
| 新しい開発フレームワーク | コンテナーやその他のネイティブ環境を活用した一般的なソフトウェアの開発・デプロイ手法に対応し、開発チームの効率を高めるため、ABBYY FineReader Engineではビルド済みの.NET Core 6ラッパーを提供しています。 |
ABBYY FineReader Engineの新しいライブラリ
| Feature | Description |
|---|
| NeoMLライブラリの活用 | NeoMLは、機械学習モデルの構築、トレーニング、およびデプロイを可能にするオープンソースのエンドツーエンド機械学習フレームワークです。このフレームワークは、画像の前処理、分類、文書レイアウト分析、Optical Character Recognition (OCR)、構造化文書および非構造化文書からのデータ抽出など、コンピュータービジョンや自然言語処理のタスクでエンジニアに利用されています。 |
| Embedded PDFium for processing PDFs | PDFiumは、PDF標準に準拠したクロスプラットフォームのネイティブライブラリで、処理、解析、レンダリング、出力の取得など、PDFに関連するあらゆる操作に対応します。 |
| Feature | Description |
|---|
| NLPおよび機械学習を使用した文書分類 | ABBYY FineReader Engine 12では、入力文書を自動的に異なるカテゴリに分類できます。機械学習、Optical Character Recognition (OCR)、および自然言語処理技術を使用して、画像ベースおよびテキストベースの分類器を代表的な文書でトレーニングします。得られた情報は、その後の分類処理で使用されます。 |
| テキストベースの分類器: トレーニングデータの高度な保護 | テキストベースの分類器をトレーニングして最適化するには、各文書カテゴリを表す文書をインポートする必要があります。これらの文書に含まれるデータを保護するため、実装されたハッシュアルゴリズムにより、サンプル文書から情報が復元される可能性を防止しています。 |
| 強化された分類Demo Sample | ABBYY FineReader Engineは、PDF、スキャンまたは撮影された文書画像に加え、Office形式の文書も処理できます。この機能を分類プロセスに反映するため、提供される分類用の事前コンパイル済みDemo Sampleが強化され、PDFおよび画像形式に加えてOffice文書もインポートできるようになりました。 |
コマンドラインインターフェイス (CLI) 用のコードサンプル
| 機能 | 説明 |
|---|
| すぐに使えるコードサンプル | このコードサンプルを使用すると、開発者は ABBYY FineReader Engine ライブラリを効率的に活用し、コマンドラインベースのアプリケーションに文書処理機能を統合できます。 |
| 機能 | 説明 |
|---|
| ボーンデジタルPDFファイルの処理 | AuxInfo は、PDF ファイルのメタデータ情報を提供する PDFium の補助オブジェクトです。ABBYY R&D PDFTools チームは、PDFium と連携する独自の AuxInfo オブジェクトを実装しました。 |
| 機能 | 説明 |
|---|
| 「混在」コンテンツを含むPDFの改善 | ABBYY FineReader Engine では、画像のみのページと電子的に作成されたページが混在するPDF文書を処理するための新機能を提供します:
- PDF処理の品質と速度を向上させる適応型認識
- 出力形式で良質な text layer を維持するための text layer 品質分類器
- PDF内の電子署名の有無の表示
- コンテンツが混在する文書を処理するための新しいコンテンツ再利用モード
|
| PDF内の追加コンテンツの使用 | PDFコンテンツをより柔軟に構成できるように、ABBYY FineReader Engine では次の新しいオプションを提供します:
- PDF Portfolio を開いて、その内容を処理する
- 出力PDFにカスタム画像を追加し、その配置を管理する
|
追加の言語サポート
| 機能 | 説明 |
|---|
| ペルシア語Optical Character Recognition (OCR) | ABBYY FineReader Engine では、ペルシア語認識オプションが更新・強化され、イラン、アフガニスタン、および中東の多くの国の文書をより効果的に処理できるようになりました。 |
| グルジア語Optical Character Recognition (OCR) | 新たなOptical Character Recognition (OCR)言語としてグルジア語が追加されました。 |
| 単純な数式向けOptical Character Recognition (OCR) | 単純な数式の文字を抽出できるようになったことで、本文中に単純な1行の数式を含む科学文書をより適切に認識できます。 |
| ビルマ語Optical Character Recognition (OCR)の技術プレビュー | 将来の機能を紹介する技術プレビューとして、ビルマ語Optical Character Recognition (OCR)が追加されました。 |
| アラビア語および日本語の日付取得向け特別言語 | FineReader Engine for Windows では、field認識用の特別な言語をサポートしています。新バージョンでは、アラビア語と日本語の日付認識が強化されました。 |
| ベンガル語Optical Character Recognition (OCR)の技術プレビュー | 今後の機能の可能性を示す技術プレビューとして、ベンガル語Optical Character Recognition (OCR)が追加されました。 |
| 機能 | 説明 |
|---|
| 表再構成の改善 | ABBYY FineReader Engine 12 では、文書から抽出した表の書式をこれまで以上に適切に保持できます。 |
| 均等段組みの検出と再現 | 文書に均等に配置された段組みのテキスト (契約書、学術論文、記事など) が含まれている場合、元の構造を保持できるようになり、文書処理が簡単になります。 |
| 新しい「単一列」文書モデル | 新しいアルゴリズムの主な改善点は、表やグラフの検出と解析です。 |
| 表構造解析の強化 | 文書変換メカニズムの改善により、ABBYY FineReader Engine は「Accounting」形式の数値列を含む表を検出できるようになりました。 |
| 機能 | 説明 |
|---|
| ILayout オブジェクト反復処理の新しい方式 | メインプロセス外でドキュメントを処理した後に取得される ILayout オブジェクトの反復処理を高速化する新しい方式です。
注: FineReader Engine for Linux および Windows に適用されます。 |
| 特長 | 説明 |
|---|
| 強化されたスキャン機能 | ABBYY FineReader Engine 12 には、デバイスベースのスキャン機能が多数搭載されています。 - 文書内の空白ページの自動削除
- ページの自動トリミング
- 自動傾き補正
- カラーモードの自動判定
|
| 機能 | 説明 |
|---|
| オンラインで利用できるドキュメント | 組み込みドキュメントに加えて、ABBYY FineReader Engine の機能や特長について必要なときに必要な情報を提供するオンライン版も利用できるようになりました。 |
Windows 用 FRE における最新の .NET Framework バージョン
| 機能 | 説明 |
|---|
| .Net COM Interop ラッパーのサポート | 配布パッケージに、次の .Net Framework バージョン用の .Net COM Interop ラッパーが追加されました。 |
| 機能 | 説明 |
|---|
| JSON | JSON (JavaScript Object Notation) は、属性と値のペアおよび配列型データで構成されるデータオブジェクトを伝送するための、オープンスタンダードの言語非依存ファイル形式です。FineReader Engine で、Optical Character Recognition (OCR) の結果を JSON 形式でエクスポートできるようになりました。 |
| 新しい ALTO バージョン | ALTO (Analyzed Layout and Text Object) は、書籍や新聞のページなどの物理的なテキストリソースのレイアウトと内容を記述する技術メタデータを定義する XML スキーマです。このスキーマの最新バージョン (4.0、4.1、4.2) は、FineReader Engine 12 でサポートされています。 |
| PDF/A-2b および PDF/A-3b | PDF/A は、電子文書のアーカイブおよび長期保存向けに特化した、Portable Document Format (PDF) の ISO 標準版です。FineReader Engine は現在、PDF/A のすべての適合レベルをサポートしています。 |
| Doclang | Doclang は、LLM への取り込み、文書 RAG システム、構造化された文書処理ワークフローなどの最新の AI パイプライン向けに、文書構造を意味的に表現するよう設計された AI 最適化 XML 形式です。 |