AI HUB 2차_모션데이터 대화음성 구간태깅/전사 프로젝트

주의사항

  • 본 프로젝트의 데이터는 인공지능 학습용으로 사용됩니다.
  • 본 프로젝트는 아래 가이드 숙지 후에 작업이 가능합니다.
  • 반려된 건에 대해 수정하지 않고 다시 제출하는 경우, 3회 이상 반려를 당할 경우 작업 불가 대상이 될 수 있습니다.
  • 데이터 할당을 받기 위하여 대충 작업하고 반려받아 재작업하는 행위는 엄격히 금지됩니다. 발견 시 작업금지 회원이 될 수 있습니다.
  • 반려된 건에 대해 26시간 이내 재작업하지 않으면 작업물이 삭제됩니다.

프로젝트 소개

5분 단위의 음성을 듣고 해당하는 구간을 태깅하고, 음성을 받아 적는 프로젝트입니다.

  1. 대화 음성이므로, 잘 들리는 사람의 음성만 작업해 주세요.

  2. 작업 예시 이미지를 꼭 참고해 주세요.

  3. 데이터 특성상 음성이 크지 않습니다. 이점 참고 해 주세요

  4. 음성 전사는 띄어쓰기와 맞춤법 표기에 맞추어 작성해주세요.
    (**맞춤법의 경우 네이버 맞춤법 검사기를 사용해 주세요.)

문의 게시판 사용법

  • 프로젝트에 참여하면서 어려운 점이나 궁금한 점이 있으시다면 가이드 최상단에 있는 전용 게시판에 적극적으로 의견을 남겨주세요.
  • 전용 게시판 내에 새로운 글을 작성하는 경우 담당자가 최대한 빠르게 답변 드릴 예정입니다. 빠른 답변을 요청하고 싶은 경우 “게시글의 댓글” 이 아닌 “새로운 글” 로 문의사항을 작성해주세요.
  • 전용 게시판 운영 시간: 월-금 오전 10시 ~ 오후 5시
  • 수시로 확인 후 답변
  • 문의 게시판 작성 시 크라우드웍스 닉네임으로 작성자명을 남겨 주세요.
  • 가이드 내 문의 게시판, 크라우드웍스 내 문의 게시판에 질문을 중복하여 남기지 말아 주세요.
    • 담당자가 문의를 확인하는 시간은 동일합니다.

작업방법

5분 가량의 두 사람이 나누는 대화를 듣고, 아래 작업대상 구간 기준에 맞춰 작업해 주세요.

[작업대상 구간 기준]

  • 두 발화자 중 더 잘 들리는 발화자의 음성을 전사하는 작업입니다. 상대 발화자의 음성은 전사 대상이 아닙니다.
  • 작업 대상 구간과 아닌 구간의 차이를 잘 구분하여 작업해 주세요.

[두 사람의 음성 크기가 비슷할 경우]

  • 작업 화면 상단의 파일명을 확인해 주세요.

  • 파일명이 ‘_01’로 끝나는 경우, 먼저 말하고 있는 사람이 작업 대상입니다.
  • 파일명이 ‘_02’로 끝나는 경우, 두 번째로 말하고 있는 사람이 작업 대상입니다.
  • 한 파일에 말하고 있는 사람이 두 사람이면 안 됩니다.

1. 2인 대화 구간태깅 기준

  1. 전사 대상인 발화자가 말하는 도중에 상대 발화자가 발화를 시작하면 기존 발화자의 문장이 종결이 되지 않아도 끊어서 구간을 태깅합니다.

    [음성] A: 그 불광에 있는 산 이름이 뭐였었
    B: 아 북한산 말씀하시는 건가요?
    A: 아 네 맞아요. 북한산.
    [A 발화자 구간 태깅] 그 불광에 있는 산 이름이 뭐였었. // 아 네 맞아요. 북한산.
    1. 전사 대상 발화자와 상대 발화자의 발화가 겹치는 경우, 전사 대상 발화자의 발화를 들리는 대로 전사하고 구간을 태깅합니다.
      • [음성] A 발화자 : 전사 대상 발화자
      • [A 발화자 구간 태깅] 제가 노래를 정말 좋아하거든요.
    2. 상대 발화자의 발화 도중 전사 대상 발화자가 추임새를 발화하는 경우, 들리는 대로 전사 후 휴지(발화 쉼)에 따라 구간을 각각 태깅합니다.
      • [음성] B 발화자 : 전사 대상 발화자
      •  [B 발화자 구간 태깅] 네. 네.// 음.// 네.//
  2. 문장 단위 (마침표, 느낌표, 물음표) 로 구간을 태깅합니다.
  3. 한 문장의 길이가 30어절을 초과하는 경우 (※어절 : 띄어쓰기로 구분된 단위)
    1. 의미상 문장이 종결되는 부분에서 구간을 태깅합니다.
      원문
      가이드라인 적용 후 구간 태깅
    2. 의미상 문장의 종결이 모호한 경우, 10 어절 이상이고 쉼표가 들어갈 수 있는 구간에서 구간을 태깅합니다.

      원문
      가이드라인 적용 후 구간 태깅
  4.  한 문장이 끝나는 종결 어미(~요. ~다. ~어. 등) 앞뒤에 1 어절의 발화가 이어지는 경우, 1 어절의 발화는 연결되는 문장과 이어서 구간을 태깅합니다.

    [음성]  A : 치매죠. 치매.
                B : 치매 무섭죠
                A : 네.
                B : 저희 아버지가 치매를 앓으시거든요
    [A 발화자 구간 태깅]  치매죠. 치매. // 네.
    ‘치매.’는 ‘치매죠.’와 이어지는 1어절이기 때문에 ‘치매죠.’와 이어서 구간을 태깅하고, ‘그렇죠’는 1어절이지만 상대 발화자에 의해 연결되지 않고 구분되기 때문에 다른 구간으로 태깅합니다.
[인용문 전사 관련 추가 기준] 
  1. 남의 말을 인용한 경우. (큰따옴표로 문장에 포함되어야 하는 경우)
    • 예) 친구가 “그걸 내가 왜 줘야 돼?”라고 말하더라고요.
  1. 마음 속으로 한 말을 전사한 경우. (작은따옴표로 문장에 포함되어야 하는 경우)
    • 예) 나는 걔랑 ‘아 나 너 이제 싫어. 나 너랑 싸울 막 이제 너랑 싸울 거야.’ 이런 것이 아니었어.
    • 위와 같은 경우, 따옴표 안에 들어갈 수 있는 인용문 문장(들)의 문장부호(마침표, 느낌표, 물음표, 쉼표)는 표기하지 않습니다.
    • 인용문 뒤에 붙는 조사 앞에서는 띄어씁니다. 예) -라고 등
    • 인용문 내에서 한 문장이 종결되더라도(종결 어미 존재), 구간을 나누어 태깅하지 않습니다.
예시 1 [원문] 친구가 그걸 내가 왜 줘야 돼?라고 말하더라고요.

[가이드라인 적용] 친구가 그걸 내가 왜 줘야 돼 라고 말하더라고요.

예시 2 [원문] 나는 걔랑 아 나 너 이제 싫어. 나 너랑 싸울 막 이제 너랑 싸울 거야. 이런 것이 아니었어.

[가이드라인 적용] 나는 걔랑 아 나 너 이제 싫어 나 너랑 싸울 막 이제 너랑 싸울 거야 이런 것이 아니었어.

 ※ 간접 인용의 경우 조사를 띄어쓰지 않습니다.

  • 예) 내가 왜 줘야 되냐고 하더라고요.
  • ‘되냐’와 ‘-고’를 띄어 쓰지 않습니다.

 ※ 인용문을 포함한 한 문장이 30어절이 넘는 경우, 인용문 안에서 문장이 끝나는 부분이 있다면 문장부호를 표기하고 구간을 나눕니다. 다만, 문장의 종결이 모호한 경우 10어절 이상이며 쉼표가 들어갈 수 있는 구간에서 구간을 나누어 태깅합니다.

  • [원문] 내가 친구한테 오늘 저녁에 마라탕 먹고 싶다고 얘기했더니 친구가 너 요즘 계속 속 안 좋다고 하지 않았어 그 매운 걸 먹을 수 있겠어 먹고 또 체하면 어떡하려고 그래 라고 말해서 뜨끔했어.
  • [구간 태깅] 내가 친구한테 오늘 저녁에 마라탕 먹고 싶다고 얘기했더니 친구가 너 요즘 계속 속 안 좋다고 하지 않았어? // 그 매운 걸 먹을 수 있겠어? // 먹고 또 체하면 어떡하려고 그래 라고 말해서 뜨끔했어. //

2. 음성전사

  1. 전사는 철자 전사와 발음전사를 활용하여 진행합니다. 자세한 기준은 아래를 따라
    전사합니다.

    • 철자전사란?
      ‘이거 내 사진 같아’를 발음했을 때, ‘이거 내 사진 가타’와 같이 전사하지 않고, ‘이거 내 사진 같아’와 같이 전사하라는 의미.
  2. 외래어는 발음대로 전사합니다. (발음 전사)
    1. [발음] 솔루션 → [전사] 솔루션
    2. [발음] 계란후라이 → [전사] 계란후라이
  3. 구어체에서 많이 나타나는 모음 변화는 사투리가 아닌 비표준어이기 때문에 맞춤법에
    따라 전사합니다. (철자 전사)

    1. [발음] 그런 것 같애 → [맞춤법] 그런 것 같아
  4. 유음(ㅇ,ㄴ,ㅁ,ㄹ)을 흘려서 발음하는 경우는 맞춤법에 따라 전사합니다. (철자 전사)
    1. [발음] 이번에 강 집에서 → [맞춤법] 이번에 간 집에서
  5. 예외로, 4와 같이 흘리듯 발음하는 것이 아니라 명확하게 잘못 발음하는 경우는
    발음에 따라 전사합니다. (발음 전사)

    1. [발음] 이번에 수염(수업)을 들었는데 → 발음 그대로 전사
  6. 비표준어이더라도 명확하게 발음하는 경우에는 발음 그대로 전사합니다.
    1. [발음] 틱틱거리다 -> 표준어는 ‘툭툭거리다’ 이지만, 들리는 대로 ‘틱틱거리다’로 전사
    2. [발음] 오뎅 -> 표준어는 ‘어묵’ 이지만, 들리는 대로 ‘오뎅’으로 전사
  7. 제대로 들리지 않는 부분은 음절의 수 만큼 X로 작성합니다.(발음이 살짝 뭉개지는 경우, 최대한 들리는 것까지 전사합니다. )
    1. ‘나 오늘 친구집에 놀러가기로 했어.’ 라는 문장에서 ‘친구’라는 단어가 들리지 않는 경우 → ‘나 오늘 XX집에 놀러가기로 했어’ 로 전사
    2. ‘내가 어제 밥을 많이 먹고 배 배가 너무 불러서 ~…’ 와 같이 버벅거리거나 더듬으며 발화한 경우 → 들리는 그대로 전사
  8. 추임새, 간투어 (아~ 어? 음~… 등)는 들리는대로 작성합니다.
    1. “일교차가 심해지는 날씨에는 음… 감기에 유의해야 합니다.”라고 발화 했을 경우→ “일교차가 심해지는 날씨에는 음 감기에 유의해야 합니다.”로 전사.
  9. 사투리(방언)의 경우 이중전사 합니다. “(방언)/(표준어)” 의 형식으로 작성 ※괄호와 빗금 사이에 공백 없도록 작성
    1. [발음] 사람 간으 -> [맞춤법] 사람 (간으)/(간의)
    2. [발음] 가만히 두덜 못햐. -> [맞춤법] 가만히 (두덜)/(두질) (못햐)/(못해)
    3. [방언] (저번 주)/(지난주)
  10. 문장의 시작, 중간, 마지막 등에 있는 (헛)기침소리, 숨소리, 숨 들이키는 소리는 전사하지 않습니다.
    1. 나 오늘 (흠흠) 친구 집에 놀러가기로 했어. → 나 오늘 친구 집에 놀러가기로 했어.
  11. 띄어쓰기와 맞춤법을 올바르게 작성해주세요. (맞춤법 검사기 활용) #. 띄어쓰기는 개인의 지식과 다르더라도 맞춤법 검사기에 100% 따라주세요.
    1. ~했데. (X) / ~했대. (O)
    2. 몇 일 (X) / 며칠 (O)
    3. ~ㄴ데 : ‘그런데’의 뜻을 가지고 있는 연결어미인 경우 붙여 씀.
      1. 밖에 눈이 오는데 어딜 가니?
    4. ~ㄴ 데 : 장소, 경우, 일, 것 등을 나타낼 때에는 의존명사이므로 띄어 씀.
      1. 요즘은 어린이들이 놀 만한 데가 없어. (장소)
      2. 엄마를 설득하는 데 며칠이 걸렸어. (일)
      3. 운동하는 데도 소질이 필요해. (경우)
    5. ‘안’ 띄어쓰기 : ‘안’은 ‘아니’의 준말이므로 항상 띄어씀.
      1. 안했다.(X)
      2. 안 했다.(O)
    6. ‘못하다’ : ‘어떤 일을 일정한 수준에 못 미치게 하다. / 그 일을 할 능력이 없다.’ ‘능력 부족’의 상황인 경우 붙여 씀.
      1. 노래를 못하다.
      2. 공부를 못하다.
    7. ‘못 하다’ : ‘동사의 동작을 수행할 수 없거나, 상태가 이루어지지 않음.’ ‘부정의 의미’ 의 경우 띄어 씀.
      1. 시험 공부를 못 했어.
      2. 잠을 통 못 자네.
  12. 영어와 알파벳, 숫자 모두 발음하는 대로 작성합니다.
    1. 1 2 3 → 일 이 삼
    2. A B C → 에이 비 씨
  13. 여러 개의 문장이 하나의 구간으로 태깅되는 경우 하나의 문장이 끝날 때마다 마침표를 찍어주세요. (마침표 뒤에 띄어쓰기, 문장 아래 줄바꿈 공백(엔터)이 없도록 확인 필수) 특히, 전사 문장의 끝 부분에는 반드시 문장부호 (마침표, 물음표, 느낌표)를 표기합니다.

3. 속성태깅

  • 발화주제 : 음성 내용의 주제를 선택해주세요.
    (**내용을 보고 주관적으로 선택해주세요.)

  • 주제종류

    • 교육/학교

    • 건강

    • 경제/과학/IT

    • 동물

    • 문화/예술

    • 사회/시사

    • 스포츠

    • 여행/휴가

    • 음식

    • 인간관계

    • 일상생활

    • 직장/직업

  • 감정정보 : 음성에서 느껴지는 감정을 선택해 주세요

    • 감정종류 : 감정없음, 기쁨, 슬픔, 분노, 놀람, 공포, 경멸

  • 사투리 유무 : 사투리 유무를 체크해 주세요.

반려 기준

  • 음성과는 다른 내용을 전사한 경우 반려대상입니다.
  • 음성에 있는 내용보다 적게 전사한 경우 반려대상입니다.
  • 음성전사의 끝 부분에 문장부호 (마침표, 물음표, 느낌표 등) 를 표기하지 않은 경우 반려대상입니다.
  • 이중전사 대상에 이중전사를 하지 않은 경우 반려대상입니다.
    (**사투리(방언)은 이중전사 대상입니다.)
  • 맞춤법이 맞지 않는 경우 반려대상입니다.

주의사항

[띄어쓰기와 맞춤법]

  • 자주 틀리는 맞춤법
    O X
    ~했대. (O) ~했데. (X)
    며칠 (O) 몇 일 (X)
  • ~ㄴ데 : ’그런데‘의 뜻을 가지고 있는 연결어미인 경우 붙여 씀.
    예) 밖에 눈이 오는데 어딜 가니?
  • ~ㄴ 데 : 장소, 일, 경우, 것 등을 나타낼 때에는 의존명사이므로 띄어 씀.
    장소 요즘은 어린이들이 놀 만한 데가 없어.
    엄마를 설득하는 데 며칠이 걸렸어.
    경우 운동하는 데도 소질이 필요해.
  • ’안‘ 띄어쓰기 : ’안‘은 ’아니‘의 준말이므로 항상 띄어씀.
    예) 안했다. (X) / 안 했다. (O)
  • ’못하다‘ : ’어떤 일을 일정한 수준에 못 미치게 하다. / 그 일을 할 능력이 없다.‘ 등 ’능력 부족‘의 상황인 경우 붙여 씀.
    예) 노래를 못하다. / 공부를 못하다.
  • ’못 하다‘ : ’동사의 동작을 수행할 수 없거나, 상태가 이루어지지 않음.‘ ’부정의 의미‘ 의 경우 띄어 씀.
    예) 시험 공부를 못 했어. / 잠을 통 못 자네.

1. 문장의 단위

  • 문장의 단위를 정확히 알고 작업을 진행해주세요.
    (**문장의 끝은 마침표, 느낌표, 물음표 가 들어가야 하는 부분을 기준으로 작업해주세요.)

    주어진 음성 치킨은 남녀노소 구분 없이 모두가 좋아하는 음식이라고 해도 손색이 없습니다. 바삭바삭한 튀김옷에 부드러운 속살, 그리고 다양한 맛의 양념 소스가 치킨을 돋보이게 해줍니다.
    올바른
    구간태깅
    치킨은 남녀노소 구분 없이 모두가 좋아하는 음식이라고 해도 손색이 없습니다. 바삭바삭한 튀김옷에 부드러운 속살, 그리고 다양한 맛의 양념 소스가 치킨을 돋보이게 해줍니다.
    잘못된
    구간태깅
    치킨은 남녀노소 구분 없이 모두가 좋아하는 음식이라고 해도  손색이 없습니다. 바삭바삭한 튀김옷에 부드러운 속살, 그리고 다양한 맛의 양념 소스가 치킨을 돋보이게 해줍니다.

 

2. 반려 후 재작업 시 주의사항

작업 반려 후 재작업 하는 경우 수정 버튼을 활용하여 해당 문장만 수정하거나, 새로운 문장을 추가 하는 경우 문장의 순서를 녹음의 순서와 동일하게 맞춰주세요.

  1. 작업 진행 시 녹음된 음성에 맞춰 구간을 태깅합니다.
  2. 구간태깅/전사작업이 음성과 동일한 순서로 작성됩니다.
  3. 2번의 문장 작업이 반려가 되어 해당 문장을 [삭제] 한 뒤 재작업을 하게 되면,
  4. 구간태깅/전사작업이 음성과 다른 순서로 나열됩니다.

 

  • 작업 반려 후 재작업 하는 경우 수정 버튼을 활용하여 수정하거나, 새로 작성한 작업의 순서를 이동하여,
  • 아래와 같이 구간태깅/전사작업이 음성과 동일한 순서가 되도록 정렬한 후 제출해주세요.

 

작업화면과 조작방식

1. 작업화면 및 조작방식

[구간태깅]

  • 재생버튼을 누르고 음성이 나오는 부분을 찾습니다.
    (**문장의 끝에 마침표, 물음표, 느낌표가 필요한 부분을 문장 끝으로 기준하여 구분해주세요.)
  • 음성이 들리면 [+] 을 누르고
  • 음성에 해당하는 부분을 마우스 왼쪽 버튼을 눌러 드래그 해주세요.
    (A) : 재생속도, 구간위치 조절 등 미세한 조절을 할 수 있습니다.
    (B) : [구간반복] 버튼으로 태깅한 부분의 음성을 반복하여 들을 수 있습니다.
    [시작점 +1초] / [종료점 -1초] 버튼으로 태깅한 부분을 미세조정할 수 있습니다.

[음성전사]

  • [문장 내용 받아쓰기] 에 태깅한 부분의 음성을 받아쓰기해주세요.
    (**이때 띄어쓰기와 맞춤법은 올바르게 작성해주세요.)
  • [저장] 버튼을 눌러 해당 부분의 작업을 저장해주세요.
  • 태깅한 부분의 발화주제 및 사투리 유무를 선택해주세요.
  • [저장] 버튼을 눌러 저장해주세요.
  • 녹음본 내 모든 문장의 [구간태깅], [음성전사] 작업이 끝나면 [작업제출] 버튼을 눌러 작업을 종료해주세요.

※전체 녹음 파일 내 한 문장마다 [+]버튼을 눌러, [구간태깅] 후 [음성전사] 를 진행해주세요.※

2. 크롬 자동 번역 OFF

  1. 크롬 우측 상단에서 [크롬 맞춤 설정 및 제어]로 진입합니다.
  2. [설정]을 클릭해 주세요.
  3. 좌측 메뉴에서 [고급]을 클릭해 주세요.
  4. [언어]를 클릭해 주세요.
  5. 언어 설정 중 [이 언어로 된 페이지에 대한 번역 옵션 제공]을 이미지와 같이 비활성화 해주셔야 합니다.
  • 위 기능을 설정하지 않을 경우, 반려 메시지가 자동 번역되어 정확한 안내를 받지 못하게 되니 꼭 설정 부탁드립니다.
Updated on 2021년 12월 6일