文件 Skill

文件 Skill 可讓您從單一類型的結構化與半結構化文件中擷取欄位值。相同類型的文件具有完全相同的一組欄位和驗證規則，以及相同的結構；例如發票、合約和出貨單就是三種不同類型的文件。結構化文件是指其欄位位置在每一份文件中都相同的表單。結構化文件的範例包括問卷、申請表與報稅表等。當您需要將結構化文件的處理與其他 Vantage 技術結合時，也可以在 Advanced Designer 中建立與編輯結構化文件的 skill。半結構化文件具有特定的一組欄位，但這些欄位的標籤、數量與位置會在同一類型的文件之間有所不同。半結構化文件的一個典型例子是不同公司開立的發票，其明細項目的數量與格式各不相同。每張發票都會列印發票號碼與總計金額，但這些資訊在每張發票上的確切位置都可能不同。若要開始訓練您的文件 Skill，請先在一份文件上標記欄位。隨著您訓練 skill，系統會開始自動建議欄位位置，以協助加速欄位標記流程。目前，在單一處理作業中，文件 Skill 一次只能處理一個檔案。若您需要處理多個檔案，請使用流程技能的 Extract 活動。

文件類型變體

同一類型的文件幾乎一律具有相同的一組欄位、驗證規則和結構。同一文件類型的變體之間可能會有些微差異，例如會因文件開立年度而不同。同一類型的文件可以由一個使用此文件類型不同變體訓練出的文件 Skill 來處理。Vantage 和 Advanced Designer 可以在單一文件類型中處理任意數量的變體：

對於數百種變體，使用 Vantage 中 Online Learning 活動所訓練的 skill 幾乎可以完美地擷取資料。
對於數千種變體，使用 Deep Learning 活動所訓練的 skill 能夠以約 80% 至 90% 的準確度擷取資料，具體取決於文件類型的複雜度。
對於最關鍵的文件類型變體，使用 Fast Learning 和/或 Extraction Rules 活動所訓練的 skill 能夠確保從複雜文件中精確擷取資料。
對於結構化文件 (其相同類型的資訊始終位於完全相同的位置) ，我們建議最多使用 10 種變體。若固定版式表單具有許多變體，我們建議將它們都視為不同的文件類型。

在訓練和測試 skill 時，我們建議如下：

在訓練 skill 時，請使用具代表性的文件集，其中每一種變體至少包含 2–3 份文件。若變體很多，而文件集中未至少包含每一種變體的一份文件，則可以使用 Deep Learning 活動。它能理解影像樣式、文件的空間結構、欄位內容及周圍標籤，並可處理未用於訓練的變體。
在測試 skill 時，請使用與實際生產流程中文件流向類似的文件分佈：訓練集中某一特定變體文件所佔的百分比，應能代表此變體在實際文件流中出現的頻率。這將確保準確度評估是有效的。為此，您應使用實際生產文件流中的隨機文件樣本來測試 skill。
至少有一個變體樣本總比完全沒有樣本好。

簡介

快速入門

技能目錄

Skill Designer

Advanced Designer

執行階段指南

租戶系統管理員指南

掃描工作站使用指南

開發人員指南

版本資訊

文件類型變體

簡介

快速入門

技能目錄

Skill Designer

Advanced Designer

執行階段指南

租戶系統管理員指南

掃描工作站使用指南

開發人員指南

版本資訊

​文件類型變體

文件類型變體