文件類型變體
- 對於數百種變體,使用 Vantage 中 Online Learning 活動所訓練的 skill 幾乎可以完美地擷取資料。
- 對於數千種變體,使用 Deep Learning 活動所訓練的 skill 能夠以約 80% 至 90% 的準確度擷取資料,具體取決於文件類型的複雜度。
- 對於最關鍵的文件類型變體,使用 Fast Learning 和/或 Extraction Rules 活動所訓練的 skill 能夠確保從複雜文件中精確擷取資料。
- 對於結構化文件 (其相同類型的資訊始終位於完全相同的位置) ,我們建議最多使用 10 種變體。若固定版式表單具有許多變體,我們建議將它們都視為不同的文件類型。
- 在訓練 skill 時,請使用具代表性的文件集,其中每一種變體至少包含 2–3 份文件。若變體很多,而文件集中未至少包含每一種變體的一份文件,則可以使用 Deep Learning 活動。它能理解影像樣式、文件的空間結構、欄位內容及周圍標籤,並可處理未用於訓練的變體。
- 在測試 skill 時,請使用與實際生產流程中文件流向類似的文件分佈:訓練集中某一特定變體文件所佔的百分比,應能代表此變體在實際文件流中出現的頻率。這將確保準確度評估是有效的。為此,您應使用實際生產文件流中的隨機文件樣本來測試 skill。
- 至少有一個變體樣本總比完全沒有樣本好。
