메인 콘텐츠로 건너뛰기
“Sick Note DE” 액티비티 구성을 완료했으며, 이제 다른 유형의 병가서에 대한 두 번째 Extraction Rules 세트를 만들 준비가 되었습니다. 네덜란드와 벨기에 병가서의 구조는 독일 문서의 구조와 상당히 다릅니다. 이 클래스 내에는 다양한 변형이 있으므로, 이번에는 어떤 필드도 추출하기 위해 Fast Learning 액티비티를 사용할 수 없습니다. 이러한 문서에는 독일 병가서에는 없는 추가 정보가 포함되어 있으므로, 액티비티를 구성하면서 몇 개의 새로운 필드도 추가하겠습니다. 먼저 모든 문서에서 사용할 수 있는 데이터를 추출한 다음, 데이터 폼에 새 필드를 몇 개 추가하겠습니다. Activity Editor를 닫지 않고도 다른 액티비티로 전환할 수 있습니다. 스킬 이름 옆에 있는 현재 액티비티 이름을 클릭하고 드롭다운 목록에서 “Sick Note BE-NL”을 선택합니다. 세트에서 첫 번째 문서를 선택합니다.

발급 날짜 추출

이러한 문서의 날짜는 Date 요소를 사용하여 쉽게 추출할 수 있으므로, 이번에는 이 필드에 대해 자동으로 생성된 검색 요소를 사용하겠습니다.
  1. Fields 탭에서 Manage Fields 대화 상자를 열고, 이 액티비티에서 사용할 “Date” 필드를 선택합니다. Save를 클릭합니다.
  2. Search Elements 탭으로 이동합니다. “Date” 필드에 대해 생성된 Date 유형의 검색 요소가 표시됩니다. 이 요소는 해당 필드에 자동으로 매핑됩니다.
  3. “IssueDateGroup”이라는 이름의 Group 검색 요소를 만듭니다. 이 요소를 선택 사항으로 설정합니다.
  4. 실제 날짜를 찾는 데 도움이 되는 레이블을 찾기 위해 “kwDate”라는 이름의 Static Text 요소를 추가합니다.
  5. 이 문서 클래스에는 네덜란드어 또는 프랑스어 문서가 포함되어 있으므로, 레이블 텍스트에는 여러 옵션이 있습니다. 각 옵션은 Text to find 대화 상자의 새 줄에 입력할 수 있습니다. 첫 번째 줄에 “Date”를 입력하고 두 번째 줄에 “Datum”을 입력합니다.
  6. Search for parts of words 옵션을 비활성화합니다.
  7. “Date” 검색 요소를 그룹으로 드래그 앤 드롭하여 “kwDate” 요소 아래에 배치합니다.
  8. “Date” 요소의 검색 영역을 지정합니다.
    a. 요소를 만들 때 자동으로 추가된 Nearest to 관계를 삭제합니다. b. 검색하려는 요소에 가장 가까운 요소로 “kwDate” 요소를 선택합니다.
    c. 날짜는 키워드의 오른쪽 또는 아래쪽에 있을 수 있습니다. 검색 영역을 “kwDate” 요소 아래로 지정합니다.
    d. 검색 영역에는 키워드가 있는 줄도 포함되어야 합니다. 요소 이름 오른쪽의 하단 경계 아이콘을 클릭하고 Top Boundary of Region을 선택합니다. 줄이 고르지 않을 수 있으므로, 검색 영역을 줄보다 약간 위로 확장하기 위해 Below 값을 -10으로 설정합니다.
  9. 날짜가 올바르게 찾아지는지 확인하려면 Match를 클릭합니다.
검색 요소의 구조는 다음과 같아야 합니다: AD_Tutorial_BE_IssueDate_Structure

병가 날짜 추출하기

이 날짜는 Key value 요소를 사용해 추출합니다. Key value 요소는 고정 텍스트 레이블과 해당 값을 모두 검색할 수 있습니다. 다만 값의 위치나 속성에 너무 큰 변형이 있는 경우에는 적합하지 않습니다. 이 문서들에서는 병가 날짜가 테이블의 각 셀에 날짜 구성 요소별로 나뉘어 들어 있습니다. 테이블 셀은 각 문서에서 비표준적인 위치에 있을 수 있지만, 셀들의 상대적 위치는 항상 동일합니다. 테이블 셀 경계가 아주 명확하다고 기대할 수는 없지만, Table Cell 요소는 경계가 다소 모호해도 사용할 수 있고, 이 액티비티를 더 많은 문서로 학습시키기로 했을 때에도 편리하므로 계속 사용하겠습니다. 그래서 Group 요소를 사용해 검색 요소의 계층 구조를 구성하겠습니다.
Table Cell 요소는 문서 테이블 내부에 있는 field에만 사용할 수 있는 것은 아닙니다. 콘텐츠가 유사한 상자나 테이블과 비슷한 구조에 배치된 양식에서 데이터를 추출해야 할 때도 유용합니다. 이 상자들 사이에 구분선이 명확하다면 Table Cell 요소는 매우 효과적입니다.
  1. Manage Fields 대화 상자를 열고 현재 액티비티에 다음 field를 추가합니다:
    • Start Date
    • End Date
    Save를 클릭합니다.
  2. Search Elements 탭으로 이동하여 시작 날짜 추출을 위한 Group 요소를 만듭니다. 그룹에 포함된 요소에 대해 다음 Parameter를 설정합니다:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “kwStartDate”에 가장 가까운 위치
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “StartDateDay”의 오른쪽, “StartDateDay”에 가장 가까운 위치
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “StartDateMonth”의 오른쪽, “StartDateMonth”에 가장 가까운 위치
Table Cell 요소는 셀의 텍스트를 있는 그대로 반환합니다. 이 경우 검색 패턴에 숫자만 인식하는 Number가 포함되어 있으므로, 이 요소가 반환하는 텍스트는 숫자입니다.
  1. “StartDateGroup” 요소를 복사하고 이름을 “EndDateGroup”으로 바꿉니다.
  2. 그룹의 하위 요소 이름을 다음과 같이 바꿉니다: “kwStartDate”를 “kwEndDate”로, “StartDateDay”를 “EndDateDay”로, “StartDateMonth”를 “EndDateMonth”로, “StartDateYear”를 “EndDateYear”로 변경합니다.
  3. “kwEndDate” 요소의 Text to find 값을 “Tot en met / Till and incl., Jusqu’ au, Tot en met”로 변경합니다.
  4. “EndDateDay” 요소의 검색 영역(Search area)을 지정합니다. 이 요소는 “kwEndDate” 요소 아래에 위치해야 하며, 그와 가장 가까워야 합니다. 다른 관계는 모두 삭제합니다.
  5. Manage Fields 대화 상자를 열고 “Start Date Composed”라는 이름의 Data Composition Field를 추가합니다. 다음 요소들을 field에 매핑합니다:
    • “StartDateDay”를 Day
    • “StartDateMonth”를 Month
    • “StartDateYear”를 Year
    Save를 클릭합니다.
  6. “End Date Composed”라는 이름의 Data Composition Field를 만듭니다. 다음 요소들을 field에 매핑합니다:
    • “EndDateDay”를 Day
    • “EndDateMonth”를 Month
    • “EndDateYear”를 Year
    Save를 클릭합니다.
  7. “Start Date Composed”와 “End Date Composed” data composition field를 “Start Date” 및 “End Date” field에 매핑합니다.
검색 요소의 구조는 다음과 같아야 합니다: AD_Tutorial_BE_Dates_Structure

병가서 유형 추출

독일 문서에서 했던 것과 정확히 같은 방식으로 체크 표시를 사용하여 병가서 유형을 추출하겠습니다.
  1. Fields 탭에서 Manage Fields 대화 상자를 열고 “Type of Sick Note” 체크 표시 그룹을 활성화합니다. 현재 액티비티에서 사용하도록 그룹의 “Primary” 및 “Secondary” 체크 표시를 활성화합니다. Save를 클릭합니다.
  2. 독일 문서에 대해 만들었던 것과 유사한 구조를 만들되, 네덜란드 및 벨기에 문서에서는 레이블(체크 표시 근처의 텍스트)이 먼저 온다는 점을 염두에 두십시오. 이러한 그룹의 하위 요소 순서는 중요합니다. a. “TypeOfSickNoteGroup”이라는 이름의 Group 요소를 만듭니다. b. 이 그룹의 복사본을 만들고 이름을 “PrimaryGroup”으로 바꿉니다. 이를 “TypeOfSickNoteGroup” 안에 배치합니다. c. “PrimaryGroup” 그룹에 “kwCheckmark”라는 이름의 Static Text 요소를 추가합니다. d. 찾을 텍스트를 “eerste / Primary, première, primair”로 설정합니다.
이러한 문서에서는 체크 표시 근처의 텍스트가 체크 표시의 왼쪽에 있으므로, 검색 영역을 오른쪽이 아니라 왼쪽으로 설정합니다.
아래 표에 따라 나머지 요소를 구성합니다:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditions”Checkmark”가 발견된 경우 요소를 찾지 않음
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. “PrimaryGroup”의 복사본을 만들고 이름을 “SecondaryGroup”으로 바꿉니다. 그 안의 “kwCheckmark” 요소에서 찾을 텍스트를 “prolongation”, “verlenging”으로 변경합니다. f. 독일 병가서는 두 가지 유형으로 나뉘었습니다. 반면 네덜란드 및 벨기에 병가서는 세 가지 유형으로 나뉩니다(‘relapse’가 추가 유형임). 따라서 “PrimaryGroup” 그룹의 복사본을 하나 더 만들고 이름을 “RelapseGroup”으로 바꿉니다. g. 그 안의 “kwCheckmark” 요소에서 찾을 텍스트를 “Herval”로 변경하고, 문장 중간에 나타나는 단어를 제외하기 위해 Match case 옵션을 활성화합니다. 검색 요소의 구조는 다음과 같아야 합니다: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Manage Fields 창을 열고 “Type of Sick Note” 체크 표시 그룹에 “Relapse” 체크 표시를 추가합니다. 현재 액티비티에서 사용하도록 그룹의 모든 체크 표시를 활성화한 다음 Save를 클릭합니다.
  2. 체크 표시를 해당 Region 요소에 매핑하고, 필드를 활성화할 때 자동으로 생성된 요소를 삭제합니다.

액티비티 테스트하기

필요한 검색 요소와 field를 모두 구성했습니다. 모든 문서를 선택하고 Match를 클릭한 다음 Fields 탭으로 전환하여 문서 이미지에서 field 영역을 검토합니다. 최적 경로의 가설에 속한 경우에만 해당 영역이 field로 전달된다는 점을 기억하세요. 결과에 만족하면 문서 이미지 상단의 복사 icon을 클릭하여 예측된 라벨링을 기준 라벨링에 복사합니다.