文档类型变体
- 对于数百种变体,使用 Vantage 中的 Online Learning 训练的技能几乎可以完美地提取数据。
- 对于数千种变体,使用 Deep Learning 活动训练的技能可以以大约 80% 到 90% 的准确率提取数据,具体取决于文档类型的复杂度。
- 对于某个文档类型中最重要的变体,使用 Fast Learning 和/或 Extraction Rules 活动训练的技能可以确保从复杂文档中准确提取数据。
- 对于结构化文档 (在完全相同的位置始终包含相同类型的信息) ,建议最多使用 10 种变体。如果某个固定表单具有大量变体,建议将它们都视为不同的文档类型。
- 在训练技能时,使用一个具有代表性的文档集,其中每个变体至少包含 2–3 份文档。如果变体很多且该文档集中并未包含每一种变体的至少一份文档,则可以使用 Deep Learning 活动。它能够理解图像模式、文档的空间结构、字段内容以及周围标签,并可以处理未用于训练的变体。
- 在测试技能时,使用与生产环境中文档实际流转情况类似的文档分布:训练集中某一特定变体文档所占的百分比应能代表该变体在实际文档流中出现的频率。这将确保准确率评估是有效的。为此,需要使用来自生产环境中实际文档流的随机文档样本来测试技能。
- 有一个变体样本总比没有好。
