線上學習如何運作
- 收集新文件,並將其放入訓練集或測試集。
- 使用訓練集啟動學習工作階段。
- 測試該 skill。
步驟 1. 文件如何被收集
-
一旦從手動審核作業人員收到第一份經更正的文件,線上學習就會開始收集文件。
- 對於文件 Skill,這是第一份其至少一個欄位區域已被更正的文件。
- 對於分類技能,這是第一份其類型已被變更的文件。
-
在取得第一份文件之後,後續文件將如下收集:
- 所有已通過手動審核的文件。
- 部分尚未通過手動審核的文件 (它們在訓練集與測試集中的合計比例不會超過所有文件的 33%) 。
-
收集到的新文件會被分配到訓練集或測試集:
- 訓練集最多可包含 10,000 份文件;測試集最多可包含 1,000 份文件。
- 在訓練集中包含的文件數量尚未達到 30 之前,文件只會被放入訓練集。一旦達到此數量,文件將被放入訓練集或測試集。
- 在兩個集合都未滿之前,每一份新文件有 80% 的機率被放入訓練集,20% 的機率被放入測試集。
- 當其中一個集合已滿時,新文件將被放入另一個集合,直到該集合也變為已滿。
- 當兩個集合都已滿時,新文件仍可被放入任一集合,並取代最舊的現有文件。
- 當兩個集合都已滿時,每一份新文件有 20% 的機率被放入其中一個集合,80% 的機率被丟棄。
- 當兩個集合都已滿時,每一份未被丟棄的新文件,有 80% 的機率被放入訓練集,20% 的機率被放入測試集,並取代任一集合中最舊的現有文件。

步驟 2. 學習階段何時啟動
- 如果這是該 skill 版本發佈後的第一個學習階段,則當文件集收到 10% 的新文件時就會啟動。例如,如果文件集中共有 95 份文件,當新增 10 份新文件後,就會啟動新的學習階段。
- 如果上一個學習階段成功且 skill 已更新,新的學習階段將在與第一次學習階段相同的條件下啟動。
- 如果上一個學習階段未成功且 skill 未更新,則當文件集收到 5% 的新文件時就會啟動新的學習階段。例如,如果文件集中共有 95 份文件,當新增 5 份新文件後,就會啟動新的學習階段。
步驟 3:如何測試 skill
- 如果測試集至少包含 20 份文件,則在測試集上測試該 skill。
- 如果測試集少於 20 份文件:
- 文件 Skill 會在訓練集與測試集上進行測試。
- 對於分類技能,如果文件集中沒有足夠的文件 (例如每個類別少於五份文件) ,則會在訓練集與測試集上測試該 skill。若文件數量足夠,將使用交叉驗證來評估準確率。
