在线学习的工作原理
- 收集新文档,并将其放入训练集或测试集。
- 使用训练集启动一次学习会话。
- 对技能进行测试。
步骤 1. 文档如何收集
-
在线学习在从人工审核员收到第一份已更正文档后,就会开始收集文档。
- 对于文档技能,这指的是第一份至少有一个字段区域被更正的文档。
- 对于分类技能,这指的是第一份类型被更改过的文档。
-
获取第一份文档之后,将按如下规则继续收集文档:
- 所有经过人工审核的文档。
- 部分未经过人工审核的文档 (它们在训练集和测试集中文档总数中所占比例不会超过 33%) 。
-
收集到的新文档会被放入训练集或测试集。
- 训练集中的文档数量上限为 10,000,测试集中的文档数量上限为 1,000。
- 在训练集中的文档数量达到 30 之前,文档只会被放入训练集。一旦达到该数量,文档将被放入训练集或测试集。
- 在两个集合都未满之前,每个新文档有 80% 的概率进入训练集,有 20% 的概率进入测试集。
- 当其中一个集合已满时,新文档将被放入另一个集合,直到该集合也被填满。
- 当两个集合都已满时,新文档仍然可以被放入任一集合,以替换其中最早的现有文档。
- 当两个集合都已满时,每个新文档有 20% 的概率被放入其中一个集合,有 80% 的概率被丢弃。
- 当两个集合都已满时,每个未被丢弃的新文档有 80% 的概率进入训练集,有 20% 的概率进入测试集,并替换相应集合中最早的现有文档。

步骤 2. 学习会话在何时启动
- 如果这是技能版本发布后的首次学习会话,当文档集新增文档数量达到总数的 10% 时,会话将启动。例如,如果文档集中共有 95 份文档,当新增 10 份文档后,就会启动新的学习会话。
- 如果上一次学习会话成功且技能已更新,则新的会话会在与第一次会话相同的条件下启动。
- 如果上一次学习会话未成功且技能未更新,则当文档集新增文档数量达到总数的 5% 时,会启动新的学习会话。例如,如果文档集中共有 95 份文档,当新增 5 份文档后,就会启动新的学习会话。
步骤 3. 技能如何进行测试
- 如果测试集中至少有 20 份文档,则在测试集上对技能进行测试。
- 如果测试集中的文档少于 20 份:
- 文档技能将在训练集和测试集上都进行测试。
- 对于分类技能,如果文档集中的文档数量不足 (如果每个类别少于 5 份文档) ,则将在训练集和测试集上都对技能进行测试。如果文档数量充足,将使用交叉验证来评估准确率。
