형사판결문 OCR 작업가이드

가이드 업데이트(2021.02.26)

※반려 멘트가 이상하게 보이는 오류※

 

 

 

가이드 업데이트(2021.02.09)

 

 

 

주의 사항

  • 본 프로젝트의 데이터는 인공지능 학습용으로 사용됩니다.
  • 본 프로젝트는 아래 가이드 숙지 후에 작업이 가능합니다.
  • 반려된 건에 대해 수정하지 않고 다시 제출하는 경우, 3 이상 반려를 당할 경우 작업 불가 대상이 될 수 있습니다.
  • 데이터 할당을 받기 위하여 대충 작업하고 반려받아 재작업하는 행위는 엄격히 금지됩니다. 발견 시 작업금지 회원이 될 수 있습니다.
  • 반려된 건에 대해 26시간 이내 재작업하지 않으면 작업물이 삭제됩니다.

프로젝트 소개

주어진 형사 판결문 내 모든 인쇄 글자를 줄 단위로 박스처리하고 입력(OCR) 해주세요.

어절 단위의 기존OCR방식이 아닌, ‘한줄 단위의 OCR 방식’ 입니다.

이 프로젝트는 문서인식  AI 소프트웨어를 개발하는 데에 활용됩니다.

작업 방법

1. 박스처리(바운딩) 기준

작업 기준
  1. 박스처리는 최대한 타이트하게(대상을 꽉 채워) 합니다.

  2. 띄어쓰기 기준이 아닌, 1줄 기준으로 박스처리 합니다.

  3. 아래 항목을 박스처리 합니다. (모든 문자에 대해 박스처리 하여야함)

    • 한글, 영어, 숫자, 특수문자 등 
  4. 세로로 된 글자는 세로로 박스처리하고 그대로 입력해주세요.
  5. 한글,영어,숫자,특수문자 이외의 언어와 특수문자도 바운딩 하여 대체텍스트로 전사합니다.
박스

처리

대상

  • 표는 표 라인이 보이게 전체 박스처리 후 <표> 로 입력해주세요.
  • 표는 ‘막혀있는 선과 그 안의 내용’ 으로 정의합니다.
  • 이미지는 이미지 박스처리 후 <이미지> 로 입력해주세요.
  • 이미지 안에 포함되어있는 텍스트는 따로 박스 처리 하지 않습니다.
  • 각주가 붙어있는 경우 각주 구분선은 —— (마이너스 6개) 로 입력합니다.
  • ‘이미지 + 텍스트’ 의 경우에는 한 줄 내에 있더라도 이미지 / 텍스트 각각 박스처리 합니다.
박스

처리

제외

  • 출력 확인용 머리말 부분은 박스처리 하지 않습니다.
  • 문서 하단의 쪽번호 부분은 바운딩 하지 않습니다.
  • 판사의 이름 우측에 서명 ( ___________________ ) 은 바운딩 하지 않습니다.
  • 각주 부분 구분선을 제외한 기타 구분선은 바운딩 하지 않습니다.
 

참고

자료

 

(예시1)
: 박스처리 기준 / 줄단위의 박스처리

 

(예시2)
: 표의 처리 / 표 내에 이미지 처리

 

(예시3)
: 이미지 처리 / 이미지 + 텍스트

2. 입력 기준

작업 기준
  1. 박스처리 후 입력창을 확인합니다.
  2. 입력란에 박스처리한 대상을 똑같이 입력해주세요.
  3. 1칸 이하의 일반 띄어쓰기는 그대로 스페이스바로 띄어쓰기를 합니다.
  4. 1칸을 초과하는 띄어쓰기는 <#> 로 입력합니다.
  5. 띄어쓰기는 좌우 글자크기 기준, 띄어쓰기를 중심으로 좌우 글자크기가 다른경우는 큰 글자 기준으로 합니다.
  6. 숫자 + 텍스트의 띄어쓰기는 텍스트를 기준으로 합니다.
    (텍스트 한글자가 들어갈 정도는 1칸)
  7. 키보드로 입력할 수 있는 특수문자도 함께 박스처리 해주세요.
    • ~ ` ! @ # $ % ^ & * ( ) _ + – = [ ] { } | : ; ’ ” ,  < > . / ? 등
    • 자음+한자 로 입력할 수 있는 특수문자 포함
    • 주로 사용되는 특수문자

      > 「」 문자 앞뒤의 꺽쇠는 ‘ㄴ+한자’ 에 있습니다.

      > · 은 ‘ㄱ+한자’ 에 있습니다.

      > ■ 은 ‘ㅁ+한자’ 에 있습니다.
      (□ 와 ■ 을 정확히 구분해주세요.)

      >○는 ‘ㅁ+한자’에 있습니다.

      > [ ]와 【 】는 다른 특수문자입니다.
      ([ ] 는 키보드에, 【 】는 ‘ㄴ+한자’에 있습니다.)

  8. ‘키보드로 입력가능 특수문자’, ‘자음+한자’를 제외한 특수문자는 <특> 으로 대체해서 입력해주세요.
    ex) <특> 발명의 효과
  9. 한국어/영어/숫자/특수문자 이외 키보드로 입력 불가능한 언어는 한 글자당 <외> 로 대체해서 입력해주세요.
    나는 大韓民國 국민입니다.
    ex) 나는 <외><외><외><외> 국민입니다. 
  10. 미리미터(㎜), 제곱미터(㎡) 등의 단위 특수문자는 영문으로 입력합니다.
    내 키는 178㎝ 입니다. 우리집은 전용면적 59㎡ 입니다.
    ex) 내 키는 178cm 입니다. 우리집은 전용면적 59m2입니다.
  11. (가),(나),(다) 등의 목록표기는  ‘(‘ + ‘가’ + ‘)’ 로 표기합니다.
    ( ㅅ + 한자에 있는 특수문자로 표기하지 않습니다.)
  12. 각주가 붙어있는 경우 각주 구분선은 —— 로 입력합니다.
참고 자료  

(예시1)
: 1칸 이하 띄어쓰기 / 1칸 초과 띄어쓰기

 

(예시2)
: 1칸 초과 띄어쓰기
 

 

(예시3)
: 윗첨자, 아래첨자 처리

> 2)개별 주장4) 로 입력합니다.

> 디이소부틸아미노실란 ((C4H9)2N)SiH3를 로 입력합니다.

 

(예시4)
: 특수문자의 처리

 

(예시5) 
: 각주 설명 구분선
: 각주 구분선은 처리 마이너스 표시(-) 6개로 전사합니다.
: 각주 아래 텍스트는 정상적으로 박스처리하여 전사합니다.

 

3. 작업불가 기준

머리말, 쪽번호 둘다 없는 경우
[/su_table]

작업 화면과 조작 방식

1. 작업화면

2. 조작 방식

 

Updated on 2021년 2월 26일

Was this article helpful?