일본어 손글씨 OCR 가이드

주의사항

* 이미지가 90도나 180도로 돌려져있는 경우 “이미지돌아감“으로 사유 입력하여 작업불가 처리 해주시기 바랍니다.

작업 개요

일본어 손글씨 이미지를 OCR하는 프로젝트 입니다. 손글씨이기 때문에 글자 간격에 유의하여 바운딩 해주시고 이모티콘이나 그림등은 반드시 돈케어 처리를 해주시기 바랍니다.

작업 화면

Θ 이미지의 확대/축소 가능합니다.

윈도우 – ctrl(컨트롤키) + ↑(방향키)

MAC OS – commmand(커맨드키) + ↑(방향키)

작업 기준

작업가능 문자

  1. 일본어 (99% 일본어로 구성되어있음)
  2. 영어 (OCR 작업해주세요, “돈케어” 아닙니다.!)
  3. 다른나라 언어 (극히 드문 확률로 다른 언어가 포함 되어있을 수 있음)
    => 전체 글자 수 대비 10% 미만 일 때 : 해당 글자 OCR 후 “돈케어” 처리
    => 전체 글자 수 대비 10% 이상 일 때 : 작업 불가
  4. 숫자
  5. 키보드상 입력가능한 특수문자
  6. 화면의 입력기내 특수문자

입력기내 특수문자

바운딩 기준

  • 바운딩 박스는 띄어쓰기 단위로 나눈다
  • 문자의 좌측 상단을 기준으로 시계방향으로 진행
  • 최대한 글자에 여백이 없도록 함

글자 좌측 상단부터 빨강점 시작

  • 바운딩의 시작점인 빨강점과 주황점은 문자와 평행해야함.

  • 여백을 줄이고자 하는 경우 바운딩 점을 더 찍을 수 있지만 과도하게 찍을 수 없음

잘못된 예시)

잘된 예시)

  • 글자의 절반보다 여백이 넓은 경우 바운딩을 나눠서 작업함. (애매한 경우 나누어서 바운딩 한다.)

  • 폰트의 차이가 2배 이상 나는 경우 바운딩을 나눔 (ex. 50 / %)
  • 행(줄)이 다른 경우 바운딩을 나눔 (ex. 50 / OFF)

  • 겹치는 문자는 앞의 문자를 바운딩 후 입력함.
    • 잘린 부분은 돈케어 처리함.

  • 글자에 테두리가 있는 경우 테두리를 포함하여 바운딩함.

 

돈케어 기준

  • 돈케어 박스는 돈케어 대상을 70%이상 포함하여야 함.
    • 편의를 위해 돈케어 바운딩 박스를 과도하게 넓게 설정할 수 없음
  • 판별이 불가능한 문자는 돈케어 처리함.

  • 이미지 끝부분에 잘리거나 사물에 가려져 잘린 글자는 돈케어 처리함.(문자의 형태가 가려지거나 잘린 경우)

  • 문자의 전체 형태가 나타날때 중간에 판별 불가능한 문자가 있으면 바운딩 단위로 전체를 돈케어함.

    • 유추가 가능한 경우에는 포함하여 작업 후 입력함. (아래와 같은 경우 모두 입력가능!)

  • 뒷면에 비치는 글자는 돈케어 처리함.

  • 의미없는 구분선의 경우 입력하지 않고 돈케어 처리함.

  • 핸드폰 상단 표시줄에 불필요한 와이파이, 배터리, 신호세기등은 무시.(돈케어도 하지 않음)
    • 화살표등 무시함.

    • 하단의 버튼모양은 돈케어 처리함.

 

  • 불필요한 밑줄은 무시함.

 

 

참고 사항

  • 문자가 그림의 형태인 경우 동일한 기준으로 작업함.

  • 수식이나 입력이 불가능한 문자로 이루어진 경우 작업불가 처리함.

Updated on 2020년 3월 5일

Was this article helpful?