책 표지 이미지 제목 OCR

주의 사항

  • 본 프로젝트의 데이터는 인공지능 학습용으로 사용됩니다.
  • 본 프로젝트는 아래 가이드 숙지 후에 작업이 가능합니다.
  • 반려된 건에 대해 수정하지 않고 다시 제출하는 경우, 3 이상 반려를 당할 경우 작업 불가 대상이 될 수 있습니다.
  • 데이터 할당을 받기 위하여 대충 작업하고 반려받아 재작업하는 행위는 엄격히 금지됩니다. 발견 시 작업금지 회원이 될 수 있습니다.
  • 반려된 건에 대해 26시간 이내 재작업하지 않으면 작업물이 삭제됩니다.
  • 현재 반려된 작업은 마이페이지 → 진행중인 작업 내역을 통해 확인이 가능합니다. 참고 부탁드리겠습니다.

 

프로젝트 소개

책 표지 이미지를 보고, 제목을 단어 단위로 바운딩 후 텍스트를 입력합니다. 제목이 아닌 글자들은 하나의 바운딩 박스로 묶어 ‘제목 아님’ 으로 태깅합니다.

  • 책 표지 이미지의 제목을 각 단어 단위로 바운딩한다.
    (단어 단위는 띄어쓰기 기준이며, 기호 및 숫자도 함께 바운딩 필요)
  • 수평/수직 형태의 제목은 ‘사각형 바운딩 도구’ 로 작업
  • 기울거나 둥근 형태의 제목은 ‘폴리곤 바운딩 도구’ 로 작업 (점찍는 순서 중요)
  • 바운딩한 단어는 ‘제목’ 으로 태깅 후, 해당 텍스트를 입력한다. (영문: 모두 소문자로 작성)
  • 제목이 아닌 글자들은 하나의 바운딩 박스로 묶어 ‘제목 아님’ 으로 태깅한다.

이 프로젝트는 인공지능 동화책 페이지 별 인식 소프트웨어를 개발하는 데에 활용됩니다.

작업 방법

1. 작업 기준

작업

기준

  • 기본적으로 ‘제목’ 바운딩은 최대한 타이트하게 이루어져야 합니다.
  • 바운딩 박스 및 글자가 겹치는 부분은 무관합니다.

 

  • 세로 텍스트는 세로로 바운딩합니다.
  • 텍스트와 연결되거나 겹쳐있는 장식은 바운딩하지 않습니다.
  • 한 단어지만 글자의 색이나 크기가 달라도 띄어쓰기가 없다면 하나의 바운딩으로 처리합니다.
  • 글자 외곽선이 다중이거나 입체 효과 처리가 되어있는 경우, 명확한 외곽선 기준으로 바운딩합니다.
  • 국문/영문 이외의 언어는 모두 ‘제목 아님’ 처리되어야 합니다.
  • 영문은 모두 소문자로 작성합니다.
  • 영문 필기체 제목
    • 알아보기 어려운 필기체는 ‘작업불가’ 처리합니다.
    • 정자체에 가까운(사람이 알아볼 정도) 필기체는 작업 대상입니다.
  • 단어 수평이 안 맞음
    • 수평이 맞지 않는 경우에도 단어 단위로 바운딩하는 것이 원칙입니다.
    • 단, 글자 별 수평이 심하게 안 맞는 경우에 한해, 단어를 쪼개 바운딩합니다.

**상세 내용은 가이드 하단의 [작업 예시] 부분 확인 부탁드립니다.

속성
  • 제목 
    • 책 표지 이미지의 제목
      • 기본적으로 ‘원본이미지 확인’ 창에 표기된 제목을 기준으로 바운딩
      • **단, 특이한 폰트/그림자글자/손그림 글자/특이한 배경 속 글자/특이한 배열의 글자 등의 데이터를 수집하기 위해, 제목에 포함돼 있더라도 크기가 작고 일반적인 정자체의 글자는 제외합니다.작은 정자체인 ‘3~4세’ 는 제외, ‘수학이/좋아/2’를 제목으로 바운딩
        – 그래도 헷갈리는 경우 ‘알라딘’ 사이트에서 제목을 검색해보시면 좋습니다. [알라딘 사이트 바로가기]
        – 알라딘 검색 결과 ‘박현영의 생생톡 영어카드 1 New 매일매일 듣고 말하는 언어놀이’ 가 제목으로 되어 있는 부분을 확인할 수 있습니다.
        – | 이후 부분은 ‘제목 아님’ 으로 간주합니다.
    • 단어 단위로 바운딩
      (단어 단위는 띄어쓰기 기준이며, 기호 및 숫자도 함께 바운딩 필요)

      • 바운딩 대상 기호
        문장부호( ? ! , . 
          )와 기타 기호( ~ – & ( ) : @ # $ % ) 입니다.
      • 수평/수직 형태의 제목은 ‘사각형 바운딩 도구’ 로 작업
      • 기울거나 둥근 형태의 제목은 ‘폴리곤 바운딩 도구’ 로 작업
        (점찍는 순서 중요 / 왼쪽 상단 꼭지점부터 시계 방향)
        빨강 -> 주황 -> 노랑 -> 초록
    • 바운딩한 글자를 입력합니다.
      **긴 문장 형태로 작성된 부제는 작업 대상이 아닙니다.
  • 제목 아님
    • 책 표지 이미지에서 제목이 아닌 글자
    • 국문/영문 이외의 언어
    • 한 눈에 식별하기 어려운 흐릿한 글자
    • 제목이 아닌 글자들을 하나의 바운딩 박스로 묶는다. (단어 단위 X)
    • ‘사각형 바운딩 도구’ 로 작업
      • ‘제목 아님’ 바운딩 박스 영역은 정교하지 않아도 됩니다.
    • 넓은 영역에 걸쳐 글자/숫자 등이 있는 경우, 아래 사진과 같이 시계 영역 전체를 ‘제목 아님’ 처리해주시면 됩니다.
  • 작업불가
    • ‘제목 아님’ 바운딩 박스가 7개 이상인 경우
    • 한 이미지에 여러 개의 책 표지가 보이는 경우
    • 영어가 아닌 외국어 책 표지인 경우
    • 배경 전체에 걸쳐 많은 글자(국문/영문/그 외 언어 모두 포함) 들이 보이는 경우
    • 좌우/상하반전 제목이 있는 경우
    • 그 외 책 표지가 아니라고 판단되는 경우

작업 화면과 조작 방식

1. 작업화면

 

2. 조작 방식

 

① 바운딩 박스를 만들거나 움직입니다.

② 사진의 크기를 조절합니다.

③ 사진을 움직입니다.

 

3. 영상 가이드

작업 예시

[제목]
좋은 예 나쁜 예

단어 단위로 바운딩 (1)

글자의 색이나 크기가 달라도 하나의 바운딩으로 처리해야 합니다.

단어 단위로 바운딩 (2)
**위 내용은 설명을 위한 예시입니다. 부제는 작업 대상(제목) 이 아닙니다.

띄어쓰기 단위로 바운딩해야 합니다.

기울거나 둥근 형태의 제목은 ‘폴리곤 바운딩 도구’ 로 정교하게 작업해야 합니다.

[제목 아님]
좋은 예 나쁜 예

단어나 줄 단위가 아닌, ‘영역’ 단위로 하나의 바운딩 박스를 묶어야 합니다.

[작업 예시]

CASE 1. 겹치는 TEXT

– 바운딩 박스 및 글자가 겹치는 부분은 무관합니다.

 

CASE 2. 세로 TEXT

– 세로 텍스트는 세로로 바운딩합니다.

 

CASE 3. TEXT 장식 불필요

– 텍스트와 연결되거나 겹쳐있는 장식은 바운딩하지 않습니다.

 

CASE 4. TEXT 색구분 불필요

– 한 단어지만 글자의 색이나 크기가 달라도 하나의 바운딩으로 처리합니다.

 

CASE 5. 영문 필기체

– 상기 ①과 같이, 알아보기 어려운 필기체는 바운딩하지 않습니다.

– 상기 ②와 같이, 정자체에 가까운(사람이 알아볼 정도) 필기체는 작업 대상입니다.

 

CASE 6. WORD 수평이 안 맞을 경우

– 상기 ①과 같이, 수평이 맞지 않는 경우에도 단어 단위로 바운딩하는 것이 원칙입니다.

– 상기 ②와 같이, 글자 별 수평이 심하게 안 맞는 경우에 한해, 단어를 쪼개 바운딩합니다.

 

CASE 7. 책 표지가 아니거나 복합 표지인 경우

– 반드시 한 이미지에 한 권의 책 표지만 있어야 합니다.

– 위와 같이 책 표지가 겹치지 않게 동봉된 물건 or 그래픽이 있는 경우에도 작업 불가입니다.

 

CASE 8. 제목의 구분이 명확하지 않은 경우

 

작은 정자체인 3호, 3단계를 제외하고, 띄어쓰기 기준으로 야호!신난다!/재잘재잘/역사여행/독도/이야기를 제목으로 하고 바운딩 하시면 됩니다.

 

CASE 9. 특이한 배경 안에 있는 정자체와 띄어쓰기

– ‘박현영’ 은 정자체지만 특이한 배경과 제목에 해당하고, ‘영어카드 1’ 은 띄어쓰기 되어 있습니다.

– 띄어쓰기 기준으로 매일매일/듣고/말하는/언어놀이/박현영의/생생톡/영어카드/1 을 제목으로 바운딩 하시면 됩니다.

– 그 외 알라딘 검색 결과 ‘박현영의 생생톡 영어카드 1 New 매일매일 듣고 말하는 언어놀이’ 가 제목으로 되어 있는 부분을 확인할 수 있습니다.

 

CASE 10. 제목 바운딩 박스에 다른 문자 등이 어쩔 수 없이 들어가는 경우

– 별 모양의 TEXT 장식과 ‘TM’ 글자는 제목으로 보지 않지만, 이 글자를 제외하고 바운딩 하는 것은 사실상 불가능하므로 같이 바운딩 합니다.

 

CASE 11. 캐릭터 이름이 들어간 경우 (스위트프리큐어, 도라에몽, 파워특공대 등)

– 캐릭터 이름도 제목으로 볼 수 있습니다.

– 그 외 알라딘 검색 결과 표기된 제목을 참고해서 꾸러기케라톱스/코리요/공룡/스티커북 을 제목으로 바운딩할 수 있습니다.

 

CASE 12. 표지 내의 그림에 보이는 숫자나 기호, 영어 등의 바운딩

– 파란색 원으로 표시되어 있는 당구공/계산기 안에 있는 숫자, 카메라 안에 있는 영어는
모두 제목 아님으로 바운딩합니다.

 

CASE 13. 제목이 2개 이상인데, 거리상 많이 떨어져 있는 경우

– 제목끼리 거리상 많이 떨어져 있는 것은 상관이 없습니다.

CASE 11과 마찬가지로 캐릭터 이름도 책 제목으로 봐주시고,

POWER RANGERS/멀티플스티커북/파워레인저/트레인포스 를 모두 제목으로 바운딩 하시면 됩니다.

(단, 위 표지는 ‘제목아님’ 바운딩 BOX가 7건이 넘으므로 작업불가 대상입니다.)

 

CASE 14. 제목 글자가 잘린 경우

– 잘린 부분을 제외하고 제목으로 처리해주시면 됩니다. (예: ‘단장’ 만 바운딩 후 제목 처리)

Updated on 2021년 1월 11일

Was this article helpful?