跳轉到主要內容

比較文件

功能說明
全新「比較文件」模組為了快速驗證文件內容的完整性,ABBYY FineReader Engine 中全新的「比較文件」模組可偵測同一份文件兩個版本之間的內容差異。
雙語文件比較「比較文件」模組中的新選項可自動偵測此類文件的雙語特性及其複雜的 Layout,並分別比較每一欄 (也就是各語言版本) 。

Linux 和 Windows 中的 Office 格式輸入

功能說明
Office 文件處理除了支援多種影像格式之外,FineReader Engine 現在也能處理以以下 Office 文件格式建立的輸入文件:
  • 文字文件:.doc, .docx, .rtf, .htm / .html, .txt, .odt
  • 試算表:.xls, .xlsx, .ods
  • 簡報:.ppt, .pptx, .odp

系統必須已安裝 Microsoft Office 或 LibreOffice。

MRZ 擷取

功能說明
從機器可讀區 (MRZ) 擷取資料這項新功能可從身分證件中的機器可讀區 (MRZ) 自動擷取資料,並在客戶註冊或驗證流程中,加快個人資料的輸入與核對。

強化的日文 OCR

功能說明
頂尖的識別準確度隨著新版 ABBYY Fine Reader Engine 的推出,日文 OCR 大幅提升,將識別準確度提升至多數解決方案過去難以達到的新境界。

提升版阿拉伯語 OCR

功能說明
適用於低品質影像的阿拉伯語端對端識別可在低品質影像上進行阿拉伯語 OCR;在這類情況下,通用技術通常只能產生信心度低且錯誤較多的結果。

改進後的韓文 OCR

功能說明
韓文深度學習語言模型針對韓文訓練的模型會從識別候選結果中選出最佳的單字識別變體,甚至可根據識別情境 (前後單字) 產生新的變體。

以神經網路為基礎的新 OCR 技術

功能說明
OCR 技術的改進藉助 OCR 技術中的神經網路方法,ABBYY FineReader Engine 強化了對手寫與正楷手寫拉丁字元的處理能力:
  • 語言模型可一致且精準地選擇單字變體
  • 適用於拉丁文字的端對端識別,可處理多語言文件
機器學習條碼識別技術此神經網路架構引入了新的條碼識別模型,可偵測條碼的大致區域、進行分類,並輸出以區域形式表示的結果,其中包含最可能的條碼類型。
新的識別模式新的 Accurate 模式可讓您取得最高品質的輸出文件,但識別速度會在合理範圍內變慢。此模式最適合用於低品質或以照片拍攝的發票、合約、收據和 ID 卡。

印章和簽名附近文字的 OCR 品質提升

功能說明
偵測印章和簽名附近的文字當合約包含印章或簽名時,系統會將其附近的文字與這些元素分開識別,從而提升處理後文件的品質。

新的授權選項

功能說明
將線上授權用於網路版與獨立版FineReader Engine 12 的開發人員說明已新增關於 SDK 各種授權方式的資訊,並以淺顯易懂的比較表說明各類授權選項。
使用寬限期透過這個新選項,客戶可在到期日後的一段時間內繼續使用 ABBYY FineReader Engine 授權,進而延長授權有效期間。

Linux 與 macOS 版本中的 ICR 與 OMR 技術

功能說明
手寫文字與核取記號識別使用 ABBYY FineReader Engine 12,您可以識別手寫字元、正楷手寫字元及各種類型的核取記號。系統已導入 ICR 與 OMR 技術,可從手寫文件中擷取資料,並開發新的資料擷取解決方案。

可在雲端環境中執行 Engine

功能說明
新的部署選項新的授權類型支援在虛擬與雲端環境中部署,讓您能提供更廣泛的解決方案。授權機制需要網際網路連線,並支援 Proxy 伺服器。

注意: 適用於 Linux 和 Windows 版 FineReader Engine。

Windows 版 FRE 中的 .NET Core 封裝器

FeatureDescription
New development framework為了提升使用容器及其他原生環境進行軟體開發與部署的開發團隊效率,ABBYY FineReader Engine 現在提供預先建置的 .NET Core 6 封裝器。

ABBYY FineReader Engine 中的新程式庫

功能說明
NeoML 程式庫的用途NeoML 是一套開源的端對端機器學習框架,可讓您建置、訓練及部署機器學習模型。工程師可使用此框架處理電腦視覺與自然語言處理工作,包括影像預處理、分類、文件 Layout 分析、OCR,以及從結構化與非結構化文件中擷取資料。
內嵌 PDFium 以處理 PDFPDFium 是一套符合 PDF 標準的跨平台原生程式庫,可處理所有與 PDF 相關的作業,包括處理、剖析、轉譯及輸出擷取。

增強的文件分類

功能說明
使用 NLP 與機器學習進行文件分類使用 ABBYY FineReader Engine 12,傳入文件可自動分類到不同類別。系統採用機器學習、OCR 與自然語言處理技術,根據具代表性的文件來訓練影像式與文字式分類器,然後在分類步驟中使用所取得的資訊。
文字式分類器:訓練資料的進階安全性若要訓練並最佳化文字式分類器,必須匯入代表各文件類別的文件。為保護這些文件中所含的資料,所導入的雜湊演算法可避免從範例文件中還原資訊。
增強的分類 Demo SampleABBYY FineReader Engine 能夠處理 PDF、掃描或拍攝的文件影像,以及 Office 格式的文件。為了在分類流程中反映此能力,所提供的預先編譯分類 Demo Sample 已經增強,現在除了 PDF 與影像格式外,也支援匯入 Office 文件。

命令列介面 (CLI) 的程式碼範例

功能說明
可直接使用的程式碼範例透過此程式碼範例,開發人員可有效運用 ABBYY FineReader Engine 程式庫,並將文件處理功能整合到命令列應用程式中。

PDF 中繼資料擷取器的實作

功能描述
數位原生 PDF 檔案處理AuxInfo 是 PDFium 的輔助物件,可提供 PDF 檔案的中繼資料資訊。ABBYY R&D PDFTools 團隊開發了可與 PDFium 搭配運作的自有 AuxInfo 物件。

改良的 PDF 處理

FeatureDescription
針對含有「混合」內容的 PDF 改良ABBYY FineReader Engine 提供新的功能,可處理同時包含純影像頁面與數位原生頁面的 PDF 文件:
  • 自適應識別,提升 PDF 處理品質與速度
  • 文字層品質分類器,可在輸出格式中保留品質良好的文字層
  • 指出 PDF 中是否存在數位簽章
  • 用於處理混合內容文件的全新內容重用模式
在 PDF 中使用其他內容為了更靈活地組成 PDF 內容,ABBYY FineReader Engine 提供以下新選項:
  • 開啟 PDF Portfolio 並處理其內容
  • 將自訂影像新增至輸出 PDF,並管理其位置
其他語言支援
FeatureDescription
波斯語 OCRABBYY FineReader Engine 提供更新且改良的波斯語識別選項,讓處理來自伊朗、阿富汗及中東許多其他國家的文件更加有效率。
喬治亞語 OCR喬治亞語已新增為新的 OCR 語言。
適用於簡單數學公式的 OCR擷取簡單數學公式中的字元後,可更準確地識別在文字中包含簡單單行數學公式的科學文件。
緬甸語 OCR 技術預覽緬甸語 OCR 已新增為技術預覽,展示未來可能支援的功能。
用於擷取阿拉伯語和日文日期的特殊語言FineReader Engine for Windows 中的 FineReader Engine 支援用於欄位識別的特殊語言。新版本進一步改良了阿拉伯語與日文日期識別。
孟加拉語 OCR 技術預覽孟加拉語 OCR 已新增為技術預覽,用於展示潛在功能。

改進的文件 Layout 重建

功能說明
改進的表格重建使用 ABBYY FineReader Engine 12,從文件擷取的表格比以往更能完整保留原有格式。
平衡欄的偵測與重建當文件包含配置平衡的文字欄 (例如合約、科學論文、文章等) 時,現在可保留其原始結構,進而簡化文件處理。
新的「單欄」文件模型新演算法的主要改進,在於表格與圖表的偵測及分析。
強化的表格結構分析透過改良的文件轉換機制,ABBYY FineReader Engine 能夠偵測欄位中的數字採用「會計」格式的表格。

加快處理速度的內部流程最佳化

功能說明
ILayout 物件迭代的新方案一種新方案,可加快對在主處理程序外處理文件後取得的 ILayout 物件進行迭代的速度。

注意: 適用於 Linux 和 Windows 的 FineReader Engine。

FRE for Windows 的新掃描選項

功能說明
更多掃描功能ABBYY FineReader Engine 12 提供多種裝置端掃描功能:
  • 自動刪除文件中的空白頁
  • 自動裁切頁面
  • 自動校正傾斜
  • 自動偵測彩色模式

線上文件

功能說明
線上提供的文件除了內建文件外,您現在也可以使用線上版本,即時取得 ABBYY FineReader Engine 功能與特性的相關資訊。

Windows 版 FRE 中最新的 .NET Framework 版本

功能說明
.NET COM Interop 包裝器支援目前的發行套件已包含適用於下列 .NET Framework 版本的 .NET COM Interop 包裝器:
  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8

新的匯出格式

功能說明
JSONJSON (JavaScript 物件表示法) 是一種開放標準、與程式語言無關的檔案格式,用於傳輸由屬性值配對和陣列資料型別組成的資料物件。FineReader Engine 現在支援將 OCR 結果匯出為 JSON 格式。
新的 ALTO 版本ALTO (Analyzed Layout and Text Object) 是一種 XML 結構描述,用於詳述描述實體文字資源版面配置與內容的技術中繼資料,例如書籍或報紙的頁面。FineReader Engine 12 支援此結構描述的最新版本 (4.0、4.1、4.2) 。
PDF/A-2b 和 PDF/A-3bPDF/A 是可攜式文件格式 (PDF) 的 ISO 標準化版本,專為電子文件的封存與長期保存而設計。現在,FineReader Engine 支援所有 PDF/A 符合性等級。
DoclangDoclang 是一種針對 AI 最佳化的 XML 格式,旨在以具語意的方式表達文件結構,以便用於現代 AI 管線,包括 LLM 擷取、文件 RAG 系統,以及結構化文件處理工作流程。
自 v. 12.8.0 起提供。

完整功能