태국어 OCR 가이드

프로젝트 개요

프로젝트 개요

이미지 내의 태국어와 영어를 바운딩 처리하고 해당 글자를 그대로 입력하는 작업입니다.

주의사항

주의사항

※ 반드시 가이드 숙지 후 작업에 참여해주세요.
※ 좌측 상단부터 우측으로 방향으로 작업해 주세요.
※ 해상도만으로 단어 중간에 돈케어 처리를 하지 않습니다.
※ 작업 시작 후 24시간 안에 제출하지 않으면 작업이 삭제됩니다.
※ 반려 후 26시간 안에 재작업하여 제출하지 않으면 작업이 삭제됩니다.


OCR 기본 작업 화면 설명

OCR작업대상 이미지 바운딩 및 텍스트 작업을 해야하는 대상

② 이미지 음영반전 및 밝기 조정 버튼 바운딩 영역의 확인이나 이미지의 판별을 도와주는 기능

③ 작업내역 썸네일 버튼 바운딩 및 텍스트 작업한 내역을 확인 할 수 있는 기능

④ 저장하고 다음으로 작업을 완료하고 제출하는 버튼

⑤ 작업불가 – 이미지 자체의 작업이 불가능한 경우 넘김 버튼(작업 불가능한 문자가 있는 경우, 이미지 자체에 문제가 있는 경우)

⑥ 이미지의 확대/축소

윈도우 – ctrl(컨트롤키) + ↑(방향키)

MAC OS – commmand(커맨드키) + ↑(방향키)

OCR 전사 작업창 설명

① 미리보기 영역을 확대하여 미리볼 수 있는 영역

② 입력 버튼 – 바운딩 영역의 문자를 입력하기 위한 버튼 (입력 버튼을 누른 후 ④번 칸에 입력)

돈케어 버튼 – 입력 가능한 문자가 아니거나 돈케어 기준에 해당하는경우 선택

④ 입력란 – 문자를 입력하는 공간

⑤ 특수문자 입력기 이미지내 키보드로 입력 불가능한 특수문자가 있는 경우 입력기에 찾아 입력 가능

⑥ 확인/취소 확인 버튼을 통하여 작업내용을 저장하거나 취소 버튼으로 리셋하는 기능

작업가능 문자

① 태국어 및 숫자

② 영어

③ 쉼표, 마침표, 느낌표 등의 키보드로 입력 가능한 문자 부호

④ 키보드로 입력 가능한 특수 문자 (단, ‘자음+한자키’ 를 이용한 입력은 불가)

⑤ 화면의 특수문자 입력기내 특수문자 (단, 텍스트와 연관이 있는 경우)

작업 방법

  1. 이미지 내 태국어를 박스처리합니다. 박스처리는 텍스트 정면의 좌측 상단부터 시계방향 순서로 점을 찍어 만들어 줍니다.
  2. 박스를 더블클릭하여 전사작업 창을 열고 입력과 돈케어 중에 하나를 선택합니다.
  3. 입력을 선택했을 경우 입력창에 전사 후 확인을 누릅니다.
  4. 돈케어를 선택했을 경우 전사를 진행하지 않고 확인을 누릅니다.
  5. 작업 가능한 모든 텍스트의 전사를 완료한 후 저장하고 다음으로 버튼을 눌러 작업결과를 제출합니다.
  6. 바운딩 점을 이동시켜 바운딩을 수정할 수 있습니다.

바운딩 기준

  • 문자의 좌측 상단을 기준으로 시계방향으로 진행
  • 최대한 바운딩 선과 글자 사이에 여백이 없도록 함
  • 바운딩의 시작점인 빨강점과 주황점은 문자와 평행해야함
  • 여백을 줄이기 위해 바운딩 점을 여러 개 찍을 수 없음
  • 다만, 글자가 매우 커서 공백이 넓은 경우 점을 여러 개 찍을 수 있음
  • 또한, 성조가 2개인 경우 바운딩점 갯수를 늘려 공백을 줄임
  • 글자의 절반보다 여백이 넓은 경우 바운딩을 나눠서 작업함
  • 폰트의 차이가 2배 이상 나는 경우 바운딩을 나눔
  • ()이 다른 경우 바운딩을 나눔
  • 잘린 부분은 돈케어 처리함
  • 같은 줄에 있더라도 텍스트 사이에 공간이 있을 경우 각각 바운딩함
  • 글자에 테투리가 있는 경우는 테투리까지 바운딩함
  • 모음+성조 음절의 경우 성조 부분은 바운딩 점 수를 늘려 바운딩 처리함
  • ไ와 ใ 등의 세로로 긴 글자들이 모음+성조 음절과 높이가 같을 경우 해당 글자도 바운딩 점 수를 늘려 바운딩 처리함

돈케어 기준

  • 돈케어 박스는 돈케어 대상을 70% 이상 포함해야 함

         (편의를 위해 돈케어 박스를 과도하게 넓은 영역으로 설정할 수 없음)

  • 판별이 불가능한 문자는 돈케어 처리함
  • 텍스트 끝부분이 사물에 가려져 잘린 글자는 돈케어 처리함
  • 굴곡면에 프린팅 되어 있어서 텍스트가 온전히 판별되지 않는 경우 돈케어 처리함

         (이 경우 같은 바운딩 기준 내 정상 문자들은 전사)

  • 문자의 전체 형태가 나타날때 중간에 판별 불가능한 문자가 있으면 바운딩 단위로 전체를 돈케어함
  • 이 경우 같은 바운딩 기준 내 정상 문자들이 있어도 전체 돈케어함
  • 유추가 가능한 경우에는 포함하여 작업 후 입력함

         (아래와 같은 경우 모두 입력가능!)

  • 뒷면에 비치는 글자는 돈케어 처리함.
  • 의미없는 구분선의 경우 입력하지 않고 돈케어 처리함.
  • 불필요한 밑줄은 무시함.
Updated on 2020년 3월 30일

Was this article helpful?