提高检测准确性的最佳实践
- 已填写唯一的公司标识符。填写唯一值列 (税号、国家税号、IBAN) 将显著提高正确检测的概率,因为这些值对每家公司都是唯一的。
- 不存在重复的公司记录。消除重复记录将提高公司被正确检测到的概率。
- 不存在不相关的记录。数据目录中过时或无效的记录可能会由于各字段值之间的偶然相似而导致公司被错误检测。
- 每条公司记录的所有字段均已填写。尽可能为公司提供准确且完整的信息。信息越准确,正确检测公司的概率就越高。
公司识别流程
步骤 1:唯一标识符搜索
- 税号
- 国家税号
- IBAN
- 将字母转换为大写
- 删除空格和以下字符:”.”, ”,”, ”—”, ”/”, ”****“
步骤 2:公司名称和地址搜索
步骤 3:生成假设
Classify By Company 活动会评估这些假设,并选出五个文档开票方的公司记录和五个文档收票方的公司记录,这些记录与在文档图像上检测到的字段值最可靠地匹配。然后使用这些记录形成 25 对组合,每一对都被视为一个单独的假设。经过训练的模型随后会根据其可靠性对这些假设进行评分,选择最佳匹配的开票方–收票方组合。
即使文档收票方公司的数量非常少 (例如,只有一个文档收票方公司) ,仍然建议使用
Document Receiver Companies 数据目录,因为这可以防止将文档收票方公司错误检测为文档开票方公司。Document Issuer Companies 数据目录指定开票方公司 ID 依赖于收票方公司 ID,则会基于这种关联生成假设 (请参阅查找公司配对) 。
检测文档开票方和收票方公司的结果
- 文档开票方公司数据目录中的开票方公司标识符
- 文档收票方公司数据目录中的收票方公司标识符
