在 结果 选项卡的 自我评估 部分,您可以监控训练进度并调整训练时长。本部分显示的统计信息将帮助您了解训练是否正常进行,以及是否需要进行调整。
左侧的图表显示了在所有训练轮次 (epoch) 中正确提取字段值的百分比。
该图表会在每个训练轮次 (epoch) 结束后更新,并反映字段提取的实际准确率。准确率是在验证子集上计算的,同时考虑识别错误和一些附加指标。
在训练过程中,会在由 20% 文档组成的验证集上进行测试。训练完成后,会在所有文档上进行测试。因此,结果可能会有所不同。文档总数越多,结果之间的差异通常就越小。
此图表可以帮助你决定是继续训练还是停止训练该 Activity:
- 如果准确率已经足够高且不再提升,则可以停止训练。
- 如果准确率尚不足够高但仍在提升,则应继续训练。
- 如果准确率尚不足够高且不再提升,则应分析各个字段的提取质量 (文档中可能存在过于罕见的字段,或者字段被错误标注) 。
训练不会影响识别质量,被错误检测的字段仍然可以用于训练。
默认情况下,Deep Learning 活动会训练 20 个 epoch。不过,在某些情况下,您可能希望缩短训练时长或手动停止训练。
在以下情况下,您可能希望停止训练:
- 准确率已经足够高,并且连续多个 epoch 内准确率没有明显变化。
- 准确率较低,并且连续多个 epoch 内准确率没有明显变化(可考虑使用更大的文档集,或确保所有字段都有良好的代表性并被正确标注)。
- 您希望在所有文档上对该活动进行手动测试(如果对字段提取结果不满意,可以继续训练)。
在训练过程中,您可以随时减少训练周期数 (epoch) 或缩短训练文档集所需的时间 (例如,变体较少的文档类型训练所需时间更短) 。
要调整训练时长,请执行以下操作:
- 转到 Results 选项卡中的 Self-Assessment 部分。
- 单击图表上方周期数右侧的设置图标。
- 输入新的周期数和/或以“小时:分钟”格式表示的时间并单击 Apply。新的限制必须大于已历经的周期数。最大周期数为 20。训练将在达到任一限制后停止。
您可以随时单击 Stop Training 停止训练。任何未完成训练周期的结果都会被丢弃。