문서 유형 변형
- 수백 개의 변형이 있는 경우 Vantage에서 Online Learning으로 학습된 스킬은 거의 완벽하게 데이터를 추출할 수 있습니다.
- 수천 개의 변형이 있는 경우 Deep Learning 활동으로 학습된 스킬은 문서 유형의 복잡도에 따라 대략 80%~90% 정도의 정확도로 데이터를 추출할 수 있습니다.
- 문서 유형 중 가장 중요한 변형의 경우 Fast Learning 및/또는 Extraction Rules 활동으로 학습된 스킬을 사용하면 복잡한 문서에서도 데이터를 정확하게 추출할 수 있습니다.
- 항상 동일한 위치에 동일한 유형의 정보가 있는 구조화 문서의 경우 최대 10개 변형 사용을 권장합니다. 고정 양식에 변형이 많은 경우에는 각 변형을 서로 다른 문서 유형으로 취급할 것을 권장합니다.
- 스킬을 학습할 때는 각 변형당 최소 2~3개의 문서를 포함하는 대표적인 문서 세트를 사용하십시오. 변형이 많고 세트에 모든 변형의 문서가 최소 한 개씩 포함되지 않은 경우에는 Deep Learning 활동을 사용할 수 있습니다. 이 활동은 이미지 패턴, 문서의 공간 구조, field 내용 및 주변 레이블을 이해하고 학습에 사용되지 않은 변형도 처리할 수 있습니다.
- 스킬을 테스트할 때는 실제 운영 환경의 문서 흐름과 유사한 문서 분포를 사용하십시오. 학습 세트에서 특정 변형 문서가 차지하는 비율은 해당 변형이 실제 문서 흐름에서 나타나는 빈도를 대표해야 합니다. 이렇게 해야 정확도 추정이 유효해집니다. 이를 위해 실제 운영 중인 문서 흐름에서 무작위로 추출한 문서 샘플로 스킬을 테스트하십시오.
- 변형 샘플이 하나라도 있는 것이 전혀 없는 것보다 낫습니다.
