드라마 음성 타임라인 태깅 및 전사 수정 프로젝트

주의사항

  • 본 프로젝트의 데이터는 인공지능 학습용으로 사용됩니다.
  • 본 프로젝트는 아래 가이드 숙지 후에 작업이 가능합니다.
  • 반려된 건에 대해 수정하지 않고 다시 제출하는 경우, 3회 이상 반려를 당할 경우 작업 불가 대상이 될 수 있습니다.
  • 데이터 할당을 받기 위하여 대충 작업하고 반려받아 재작업하는 행위는 엄격히 금지됩니다. 발견 시 작업금지 회원이 될 수 있습니다.
  • 반려된 건에 대해 26시간 이내 재작업하지 않으면 작업물이 삭제됩니다.

프로젝트 소개

20분 분량의 웹 드라마 음성 파일을 듣고, 타임라인과 스크립트를 수정하는 프로젝트 입니다.

  1. 세팅된 텍스트만 검토 및 수정을 진행해 주세요. 누락된 부분에 대해 추가 작업은 하지 않습니다.
  2. 스크립트에는 누락되어 있지만 말하는 사람이 동일하고, 계속해서 말하고 있는 경우 누락된 부분은 추가로 입력해 주세요.
  3. 타임 라인과 스크립트 부분만 수정해 주세요.

이 프로젝트는 인공지능 AI 소프트웨어를 개발하는 데에 활용됩니다.

작업방법

[작업 기준]

  • 세팅된 텍스트 부분의 타임라인과 스크립트를 확인하고 잘못된 부분이 있다면 수정해 주세요.
  • 기존 스크립트에는 누락되어 있지만 말하는 사람이 동일하고, 계속해서 말하고 있는 경우 누락된 부분은 기존 스크립트를 수정해 주세요.
말하는 내용 A : 안녕하세요 반갑습니다
기존 스크립트 작성 내용 A : 안녕하세요
추가 내용 A : 안녕하세요 반갑습니다
  • 기존 스크립트에 누락되어 있고 다른 사람이 말하는 경우에는 스크립트를 수정하지 않습니다.
말하는 내용 A : 안녕하세요

B : 반갑습니다

기존 스크립트 작성 내용 A : 안녕하세요
수정 내용 없음
  • 말하는 내용과 맞춤법이 다른 경우, 들리는 대로 기입하되 맞춤법에 맞게 변경해 주세요. (예시 참고)
말하는 내용 쫌그런거같애
맞춤법 교정 내용 좀 그런거 같아
수정 내용 쫌 그런거 같애

[타임라인 수정 방법]

  • 실제 음성과 타임라인의 오차가 0.5초 이내로 되도록 타임라인을 수정해 주세요.
  • 음성이 시작되는 부분의 start_time 과 음성이 끝나는 부분인 end_time의 타임 라인을 정확히 맞춰 주세요.
  • 스크립트에 행동 묘사가 작성되어 있다면, 행동 묘사에 해당하는 음성 부분은 타임라인에 제외해 주세요.
    기 입력된 스크립트 (E.내려놓으며) 무겁구나
    타임 라인 태깅 (내려놓는 소리 제외) 무겁구나

[스크립트 수정 방법]

1. 숫자 표기 방법 
  • 들리는 발음 그대로 작성하는 것이 원칙입니다.
  • 들리는 발음이 숫자라면 한글로 작성하고 괄호 안에 숫자를 함께 표기합니다.
  • 띄어쓰기에 유의해 주세요.
들리는 발음 표기 방법
이십사 시간 이십사(24) 시간
스물네 시간 스물네(24) 시간
네 시 네(4) 시
세 분 세(3) 분
삼 분 삼(3) 분
  • 이미 입력되어 있는 숫자 표기가 한글인 경우 그대로 한글로 작성합니다.
  • 이미 입력되어 있는 숫자 표기가 숫자인 경우 한글로 변경하고 괄호 안에 숫자를 함께 표기합니다.
기 입력된 스크립트 변경 방법
오대 그룹이 모여 오대 그룹이 모여
이십사시간 이십사시간
스물네시간 스물네시간
삼 분 삼 분
자동차 5대 자동차 다섯(5) 대
1000원 천(1000)원
105,505,050원 일억 오백오십만 오천오십(105,505,050) 원
1.5% 일점오 퍼센트(1.5%)
¾ 사분의 삼(¾)

  • 한글 자판 [ㅊ + 한자키] 입력 시 분수 변환 가능합니다.
2. 영문 및 단위 표기 방법
  • 들리는 발음 그대로 작성하는 것이 원칙입니다.
  • 이미 입력되어 있는 영문 표기가 한글인 경우 그대로 한글로 작성합니다.
  • 이미 입력되어 있는 영문 표기가 영문인 경우 한글로 변경하고 괄호 안에 영문을 함께 표기합니다.
  • 입력되지 않은 내용을 새로 받아 쓰는 경우 한글로 변경하고 괄호 안에 영문을 함께 표기합니다.
  • 단순 영어 표현/영어 명칭 표현 (가수명, 드라마/영화 제목, 브랜드 등)도 위 규칙과 동일하게 표기합니다.
기 입력된 스크립트 변경 방법
drama 드라마(drama)
genre 장르(genre)
XL 엑스라지(XL)
ml 밀리리터(ml)
cm 센티미터(cm)
마룬파이브 마룬파이브
maroon5 마룬파이브(maroon5)
what are you doing 왓 아 유 두잉(what are you doing)
3. 행동 묘사 내용 수정 방법
  • 기 입력된 스크립트에 행동 묘사가 입력되어 있다면 삭제하지 않습니다.
  • 스크립트에 행동 묘사가 작성되어 있다면, 행동 묘사에 해당하는 음성 부분은 타임라인에서 제외해 주세요.
4. 특수 기호 수정 방법
  • . / , / ? / ! / ~ / % (마침표/쉼표/물음표/느낌표/물결표/퍼센트)와 분수 표기만 허용합니다.
  • 기 입력된 스크립트에 허용되는 특수 문자가 입력되어 있다면 그대로 입력해 주세요.
  • 기 입력된 스크립트에 없는 특수 문자는 추가하지 않습니다.
5. 음성 겹침 표기 방법
  • 겹치는 부분을 기준으로 스크립트에 작성할 부분과 특이 사항에 작성할 부분을 구분합니다.
  • 글자수 세는 기준
    • 겹치는 글자를 제외한 나머지 부분의 글자수를 셉니다.
    • 텍스트 순서대로 겹침 부분이 나오는 부분까지의 글자수를 셉니다.

6. 간투어 표기 방법

  • 간투어란?
    • 놀람이나 느낌, 부름, 응답을 나타내는 말의 부류 입니다.
    • 아, 어, 음 등의 감탄사나 탄성과 함께 나타납니다.
  • 누락된 간투어도 함께 표기해 주세요.
  • 두 사람 이상의 간투어가 함께 들리는 경우 음성 겹침 표기 방법 기준으로 분리하여 특이 사항에 입력해 주세요.

[작업 예시]

  • 예시 : 무슨 대답[네 언니]을 원하는데?
    1. 겹침 글자수 : 3글자
    2. 나머지 글자수 : 9글자
    3. 겹침을 기준으로 짧은 부분과 겹치는 글자를 함께 특이사항에 작성
    4. 남아 있는 긴 부분은 그대로 작성
  1. 한 부분이 겹친 경우

    스크립트 (가장 긴 텍스트를 작성) 을 원하는데?
    특이사항 (겹침 부분과 함께 나머지 부분을 모두 작성) 무슨 대답[네 언니]
  2. 두 부분이 겹친 경우 + 나머지 글자수가 다른 경우

    스크립트 (가장 긴 텍스트를 작성) 지금도 눈부시게
    특이사항 (겹침 부분과 함께 나머지 부분을 모두 작성) 좋아 넌[아니][그건] 이뻐
  3. 두 부분이 겹친 경우 + 나머지 글자수가 같은 경우

    스크립트 (가장 앞 부분의 텍스트를 작성) 안녕하세
    특이사항 (겹침 부분과 함께 나머지 부분을 모두 작성) [네]요 이건 무[언니]엇인가요

작업화면과 조작방식

1. 작업화면

2. 조작 방식

[타임라인 수정]

  1. 해당 스크립트의 전체 재생 시간을 확인할 수 있습니다.
  2.  음성이 시작되는 start_time 라인과 음성이 끝나는 부분인 end_time 라인을 0.1초씩 앞당기거나 뒤로 이동할 수 있습니다.
  3. 해당 스크립트의 설정된 타임 라인 구간을 확인할 수 있습니다.

[스크립트 수정]

  1. 구간 반복 : 해당 스크립트의 Speaker 음성을 반복하여 들을 수 있습니다.
  2. script_text : 해당 구간의 스크립트가 맞게 작성되어 있는지 확인해 주세요. 들리는 음성과 다른 부분은 수정해 주세요.
    speaker : 들리는 음성과 이름이 일치하는지 확인해 주세요.
  3. 특이사항 입력 : 음성이 겹치는 경우 기준에 따라 나머지 부분을 작성해 주세요.
  4. 구간마다 반드시 저장을 눌러서 다음 작업을 진행해 주세요.
Updated on 2021년 5월 3일

Was this article helpful?