외국인 발화 한국어 음성_대본읽기 전사_검수 프로젝트

주의사항

  • ‘0. 상세 작업 가이드라인 PDF 파일 다운로드’ 파트에서 상세 작업 가이드라인 PDF
    파일을 다운로드 하세요. 해당 PDF 내용을 꼭 숙지한 후에 작업을 시작하세요.
  • 본 페이지에서 안내하고 있는 작업 방법과 전사 규칙은 PDF 내용을 요약한 것입니다. 본 페이지에서 안내하고 있는 내용은 작업 중 참고용으로 이용하세요.
  • 안내된 작업 방법 및 전사 규칙에 맞지 않는 작업은 삭제될 수 있으며, 이 경우 사례비는 지급되지 않습니다. 주의해주세요.
  • 작업 방법과 전사 규칙과 작업 방법에 맞지 않는 작업을 지속하는 경우, 불량 작업자로 지정되어 진행한 작업이 모두 삭제되고, 작업 참여가 금지될 수 있습니다.

프로젝트 설명

주어진 녹음 음성에 대해 서로 다른 2명의 작업자가 작업한 전사 결과 2건을 보고, 주어진 녹음 음성에 대한 전사 결과로 어떤 것이 가장 적절한지 선택하는 프로젝트입니다.

  1. 녹음 내용은 주어진 대본을 읽은 외국인의 발화 음성입니다.
  2. 작업 화면에서 녹음을 위해 녹음자에게 주어진 대본 내용과, 녹음 음성, 전사 시 참고할 수 있는 녹음자의 정보(성별, 국적, 모국어 등)를 확인할 수 있습니다.
  3. 작업 내용은 4가지로 전사 결과 1과 2 중 녹음 음성 전사 결과로 적절한 내용 선택, 녹음 음성 전사 불가 작업에 해당 여부 파악, 녹음 음성 전사, 녹음 내용의 한국어 실력 평가입니다.
    • 전사 결과 1과 2 중 적절한 결과 선택 : 녹음 음성을 듣고, 전사 규칙에 기반해 볼 때 전사 결과 1과 2 중 전사 결과로 가장 적합한 결과를 선택
    • 녹음 음성 전사 불가 작업 해당 여부 판단 : 녹음 음성을 듣고 전사 불가 작업 판단 기준에 따라 해당 녹음 음성이 전사 불가 작업에 해당하는지 전사 불가 작업에 해당 · 비해당 중 하나 선택. 전사 불가 작업에 해당할 경우, 관련된 판단 기준을 사유로 드롭박스 중 선택
    • 녹음 음성 전사 : 녹음 음성을 듣고 주어진 대본 내용과 전사 규칙을 기반으로 전사하는 작업
    • 녹음 음성 한국어 구사 수준 평가 : 녹음 음성을 듣고, 한국어 구사 실력 평가 기준에 따라 해당 녹음 음성의 한국어 구사 실력을 상·중·하 중 하나로 선택

이 프로젝트는  AI 데이터 구축과 음성 인식 모델 개발에 활용됩니다.

적절한 전사 결과 선택 방법

  • 주어진 녹음 내용을 듣고, 주어진 전사 결과 1과 전사 결과 2 중 녹음 내용에 대한 전사 결과로 가장 적절한 것을 선택하세요.
  • 단, 전사 결과 1이나 결과 2 중 하나의 내용이 ‘전사 불가’이며, 주어진 녹음 내용이 전사 불가로 처리되는 것이 적절하다고 생각하실 경우에는 ‘전사 결과 1’이나 ‘전사 결과 2’ 중 하나를 선택하지 마시고, ‘전사 결과 1과 전사 결과 2 모두 적합하지 않음’을 선택해 주세요.
구분 전사 결과 예시 판단 선택 내용
전사 결과 1과
전사 결과 2
모두
‘전사 불가’가
아닌 경우
  • 전사 결과 1 : 경복궁 관람 요+ 요금은 삼 천 원입니다
  • 전사 결과 2 : 경복궁 관람 음/ 요+요금은 삼 천 원입니다
‘전사 결과 1’
적합
‘전사 결과 1’
선택
‘전사 결과 2’
적합
‘전사 결과 2’
선택
전사 결과 1과
전사 결과 2
모두 부적합
‘전사 결과 1과 2
모두 적합하지 않음’ 선택
전사 결과 1나
전사 결과 2 중
하나가
‘전사 불가’인
경우
  • 전사 결과 1 : 경복궁 관람 요+ 요금은 삼 천 원입니다
  • 전사 결과 2 : 전사 불가
‘전사 결과 1’
적합
‘전사 결과 1’
선택
‘전사 결과 2’
적합
‘전사 결과 1과 2
모두 적합하지 않음’ 선택
  • 전사 결과 1 : 전사 불가
  • 전사 결과 2 : 경복궁 관람 음/ 요+ 요금은 삼 천 원입니다
‘전사 결과 1’
적합
‘전사 결과 1과 2
모두 적합하지 않음’ 선택
‘전사 결과 2’
적합
‘전사 결과 2’
선택

전사 불가 작업 해당 여부 판단 기준

  • 아래 표와 같은 기준에 해당하는 녹음 작업 ‘전사 불가 작업 해당’으로 판단합니다.
  • 아래 표에 해당하는 기준이 없으나, 전사 불가 작업으로 판단되는 경우
    foreignervoice@cslee.co.kr 로 이메일을 보내주세요
전사 불가 작업 기준 판단
녹음자의 음성이 전혀 녹음되지 않아 전사할 수 없는 경우
– TV 소리, 강아지 소리 등 관련 없는 소리만 녹음된 경우
– 아무 소리도 녹음되지 않은 경우
전사 불가
작업에 해당
녹음자의 음성이 잘 들리지 않아 전사 진행에 어려움이 있는 경우
– 녹음자의 음성이 너무 작게 들림
– 너무 큰 잡음 등으로 인해 전체적으로 녹음자 음성이 들리지 않음
– 녹음자의 음성이 맨 앞이나 맨 뒤에서 잘리게 녹음됨
전사 불가
작업에 해당
불성실하게 작업하여, 불량 작업인 경우
– 대본 내용 전체를 아예 다른 내용으로 녹음
– 대본 내용 중 한 단어만을 발음하는 등 명백히 성실하게 녹음한 것으로 보기 어려움
전사 불가
작업에 해당
성실하게 대본 내용을 읽었으나, 발음을 알아듣기 힘든 경우
– 대본 내용을 성실히 녹음하였지만, 발음이 명료하지는 않음
상세 규칙 [8-6. 알아듣기 힘든 발화] 참고
전사 불가
작업에 비해당
성실하게 대본 내용을 읽었으나, 일부 단어나 문구에서 대본 내용과
차이가 있는 경우
– 대본 내용을 성실히 녹음하였으나, 대본 내용에 없는 일부 단어나 문구를 추가하여 녹음
– 대본 내용을 성실히 녹음하였으나, 대본 내용 중 일부 단어나 문구를 누락하고 녹음
– 대본 내용을 성실히 녹음하였으나, 대본 내용 중 일부 단어나 문구를 다른 내용으로 대체하여 녹음
상세 규칙 [8-3. 추가 발화], [8-4. 발화 누락], [8-5. 대본과 다른 내용 녹음] 참고
전사 불가
작업에 비해당

녹음 음성 한국어 구사 수준 평가 기준

  • 녹음 음성 한국어 구사 수준 선택 결과는 작업자 정보에서 확인할 수 있는 실력이 아닌, 개별 녹음 음성의 한국어 구사 수준을 평가한 내용입니다.
  • 녹음 음성 한국어 구사 수준은 아래 표와 같은 기준에 따라 상/중/하 중 하나를 선택합니다.
구사 수준 평가 기준
  • 발음과 억양이 모국어 화자에 준하는 수준으로 명료함
  • 개별 음운에는 아직 모국어의 영향이 남아있더라도 모국어 화자에 준하는 수준으로 자연스러움
  • 어색한 발음과 억양이 나타나지만 말하는 바를 이해하는 데 지장이 없음
  • 주저함, 더듬거림, 휴지 등이 때때로 나타나지만 의사소통을 방해하지는 않음
  • 발음과 억양이 명료하지는 않지만, 주의를 기울이면 말하는 바를 겨우 알아들을 수 있음
  • 주저함, 더듬거림, 휴지 등이 자주 나타남

전사 규칙

0. 상세 작업 가이드라인 PDF 파일 다운로드

    • 아래 링크를 눌러 상세 작업 가이드라인을 다운로드하세요.
    • 본 페이지에서 안내하고 있는 전사 규칙은 해당 PDF 파일을 요약한 내용입니다.
    • PDF 파일에는 전사 상황별 상세 전사 예시가 수록되어 있습니다.
    • 정확한 작업을 위해 다운로드 받은 가이드라인의 내용을 꼭 숙지하시고, 본 페이지에서 안내하는 전사 규칙은 작업 중 참고용으로 이용하세요.

1. 기본 원칙

    • 전사 방법은 철자 전사와 발음 전사 2가지로 나뉩니다. 철자 전사란 들리는 바를 표준어법에 맞추어 적는 것이며, 발음 전사는 들리는 바를 소리대로 적는 것입니다. 본 프로젝트에서는 철자전사에 따라 전사하며, 발음 전사는 진행하지 않습니다.
      • 철자 전사 예시 : 비가 많이 내리면 나중에 안 오는 거 같아 (O)
      • 발음 전사 예시 : 비가 마니 내리면 나중에 안 오는 거 가따 (X)
    • 전사는 영어, 숫자, 기호, 문장부호가 아닌 한글로만 전사하는 것을 원칙으로 합니다.
      • 예시 : 비행기 출발 시각 최소 30분 전에 공항에 도착하세요 (X)
      • 예시 : 비행기 출발 시각 최소 삼십 분 전에 공항에 도착하세요 (O)
    • 전사 시 주어지는 대본 내용을 기본으로 전사 작업을 진행하세요. 단, 녹음자가 스크립트에 없는 내용을 추가해 발화하였거나, 스크립트 내용 중 누락한 부분이 있다면 관련한 전사 규칙에 따라 해당 내용을 반영하여 전사하세요.
    • 관련한 전사 규칙
      1. 스크립트에 없는 내용 추가해 발화한 경우 : 전사 규칙 8-1(간투어), 전사 규칙 8-2 (반복 발화) 전사 규칙 8-3(추가 발화)
      2. 스크립트 내용 중 누락한 부분이 있는 경우 : 전사 규칙 8-4 (발화 누락)

2. 상세 규칙

번호 전사 내용 전사 규칙
8-1 간투어
  • 간투어란 별다른 의미가 없고 주로 머뭇거림이나 발화 습성으로 인해 나타나는 단어입니다.
  • 간투어는 ‘이, 그, 저, 어, 아, 에, 음, 응, 엄, 뭐’로 정의하며, 이 이외에는 간투어로 전사하지 않습니다.
  • 간투어는 뒤에 ‘/’를 붙여 전사하세요
8-2 반복 발화
  • 반복 발화란 단어를 반복해 발화한 경우입니다.
  • 단어의 형태는 바로 뒤의 단어에서 조사를 제외한 부분을 기준으로 판단합니다. 조사를 제외한 바로 뒷 단어와 동일하게 발음을 하였을 경우 완전한 형태로, 일부 음절만을 발음하였을 경우 불완전 형태로 판단합니다.
  • 반복 발화한 단어가 완전한 형태일 경우, 반복 발화된 부분을 띄어쓰기를 포함하여 맞춤법에 맞추어 전사하고, 뒤에 ‘+’는 붙이지 않습니다.
  • 반복 발화된 부분이 불완전 형태일 경우 맞춤법에 맞추어 전사하고, 뒤에 ‘+’를 붙여 정상적인 단어와 구분해 전사하세요. ‘+’ 뒤에는 꼭 공백을 넣어 전사하세요
8-3 추가 발화
  • 추가 발화는 스크립트에 없는 단어나 문구를 녹음자가 추가하여 말한 경우입니다.
  • 추가 발화가 이루어진 경우에는 추가된 내용도 포함하여 맞춤법에 맞게 전사하세요.
8-4 발화 누락
  • 발화 누락은 스크립트 내용 중 일부 단어나 문구를 녹음자가 누락하고 녹음한 경우입니다.
  • 발화 누락이 이루어진 경우에는 발화되지 않은 부분을 제외하고 발화된 부분만을 전사 규칙에 맞추어 전사하세요.
8-5 대본과 다른 내용 녹음
  • 대본과는 다른 내용으로 대체해 녹음한 경우입니다.
  • 대본과 녹음 내용의 일부분이 다르다면 해당 내용으로 바꾸어 맞춤법에 맞춰 전사하세요.
  • 대본과 녹음 내용의 전체가 다르다면 전사 작업은 별도로 하지 않으며, 전사 작업 불가 대상에 해당하는 것으로 처리해주세요.
8-6 알아듣기 힘든 발화
  • 녹음 음성에서 명확히 어떤 내용인지 알아듣기 힘든 경우입니다.
  • 발음이 불분명하고 이상하나 대본 내용을 성실히 녹음한 것으로 보이고, 발음도 화자가 외국인이라는 점을 감안하였을 때 대본 내용을 최대한 유사하게 발음한 것으로 판단된다면, 대본 내용을 기반으로 맞춤법에 맞추어 전사하세요.
  • 대본 내용을 성실히 녹음한 것으로 보이지만, 발음이 불분명하고 이상하며 화자가 외국인이라는 점을 감안하고 수차례 들어도 스크립트에 제시된 단어를 읽은 것으로 판단하기 어려운경우에는 알아듣기 힘든 부분을 발음 그대로 전사하고, 뒤에  un/을 붙여 처리하세요. un/은 어절 단위로 붙이며, un/ 앞뒤로는 공백을 꼭 주세요. 
  • 알아듣기 힘들고, 명백히 불성실하게 녹음한 경우에는 별도로 전사 작업을 하지 않고, ‘전사 작업 불가 대상에 해당’으로 처리하세요
8-7 잡음
  • 녹음 음성에서 녹음자의 음성 이외에 다른 소리가 함께 녹음된 경우입니다.
  • 화자 잡음은 녹음자가 녹음을 하는 중간에 내는 잡음입니다. 대표적으로는 웃음 소리, 기침 소리 등이 있습니다.
  • 외부 잡음은 외부 환경에서 발생한 잡음입니다. 대표적으로는 차 경적소리와 다른 사람의 말소리가 있습니다.
  • 본 프로젝트에서는 외부 잡음은 별도로 전사 처리하지 않으며, 화자 잡음만을 전사 처리합니다.
  • 화자 잡음이 발생하였을 경우, 잡음이 발생한 시점 부분에 ‘sn/'을 포함하여 전사합니다. ‘sn/’ 앞 뒤로는 공백을 주어 전사합니다.
  • 단, 녹음자의 녹음 내용이 들리지 않을 정도로 과도한 잡음이나, 다른 사람의 말소리가 함께 녹음되었을 경우 해당 작업은 별도로 전사 작업을 하지 않고 ‘전사 불가 작업에 해당’으로 처리합니다.
8-8 방언
  • 표준어가 아닌 방언 발음으로 녹음한 경우입니다.
  • 방언에 해당하는 발화 내용은 대본 내용의 표준어로 변환하여 전사합니다
8-9 외국어/외래어
  • 외국어 및 외래어는 한국어로 전사하며, 알파벳으로 전사하지 않습니다.
  • 외국어 및 외래어는 발음이 아닌 한글 표준어법에 맞추어 전합니다.
  • 대본에 표기된 괄호 안의 알파벳은 함께 전사하지 않습니다.
  • 대본 내용을 성실히 녹음하였으나 일부분을 원어 발음으로 발화한 경우, 해당 원어 발음이 국내에서 통상적으로 사용된다면 발음한 그대로를 맞춤법에 맞춰 전사합니다.
  • 해당 원어 발음이 국내에서 통상적으로 사용되지 않는다면 대본 내용에 기반하여, 맞춤법에 맞춰 전사합니다.
8-10 영어 약어
  • 영어 약어는 발음이 아닌 한글 표준어법에 맞추어 전사합니다. 단, 한국인 원어민도 혼용하여 사용하는 단어의 경우 발음이 대본 내용과는 다르더라도, 대본 내용에 기반하여 맞춤법에 맞게 전사하세요.
  • 알파벳 단위로 끊어 읽은 경우, 알파벳 자모 이름 맞춤법 규정에 따라 전사합니다.

알파벳 자모 이름 맞춤법 규정

A 에이 / B 비 / C 씨 / D 디 / E 이 / F 에프 / G 지 / H 에이치
/ I 아이 / J 제이 / K 케이 / L 엘 / M 엠 / N 엔 / O 오 / P 피 /
Q 큐 / R 알 / S 에스 / T 티 / U 유 / V 브이 또는 비 / W 더블
유 / X 엑스 / Y 와이 / Z 지 또는 제트

  • 알파벳 단위로 끊어 읽은 약어는 해당 내용을 모두 띄어쓰기 없이 하나로 전사합니다.
  • 통상적으로 알파벳 단위로 끊어 읽는 단어를 한 단어로 보고 발화하였을 경우 발음 내용을 표준어로 전사합니다.
8-11 숫자
  • 기본적으로 모두 아라비아 숫자 및 기호가 아닌, 한글로 전사합니다.
  • 만 단위를 기준으로 띄어쓰기 하여 전사합니다.
  • 문장에 적절하지 않더라도, 한국어 숫자 발음 방법 중 하나로 적합할 경우 발화한 내용을 그대로 맞춤법에 맞추어 전사합니다. (예시 : 1 – 일 – 한 / 2 – 이 – 둘 / 10 – 십 – 열 – 시)
  • 원칙상 단위를 나타내는 ‘년’, ‘월’, ‘일’, ‘시간’ ‘시’, ‘분’, ‘원’ 등은 숫자와 띄어쓰기 하여 전사합니다.
  • 중간에 조사가 덧붙여지지 않은 전화번호는 띄어쓰기 하지 않고 모두 붙여 전사합니다.
  • 한국의 특정 기념일을 뜻하는 숫자는 하나로 붙여 전사합니다.
8-12 단위
  • 원칙상 단위를 나타내는 단어(예 : ‘리터’, ‘층’, ‘퍼센트’ 등)는 숫자와 띄어쓰기 하여 전사합니다.
  • 대본과 다르게 발음하였더라도 통상적으로 읽는 방법에 적합할 경우, 발화한 내용을 그대로 맞춤법에 맞추어 전사합니다.
  • 통상적으로 읽는 방법과 다르게 단위를 읽었을 경우 스크립트 내용에 기반하여 맞춤법에 맞추어 전사합니다.
8-13 문장기호
  • 모든 문장기호와 특수문자는 제외하고 전사합니다.
    ( 문장부호 유형 : . ? ! ‘ ’ “ ” ~ 등
    특수문자 유형 : + – @ # $ ^ & 등 )
  • 내용상 특수문자의 표기가 필요한 경우에는 기호가 아닌 한글로 표기하며, 앞말과 띄어쓰기 하여 전사합니다
8-14 띄어쓰기
  • 대본에서 띄어쓰기 한 바를 따라 띄어쓰기 하는 것을 원칙으로 합니다.
  • 대본의 띄어쓰기는 맞춤법상 [원칙]과 [가능] 규칙을 혼용하여 작성되어 있습니다.

  • 단, 맟춤법상으로 볼 때 [원칙]과 [가능] 규칙 모두에 포함되지 않는 띄어쓰기 오류가 대본에 있다면 띄어쓰기 맞춤법 [원칙] 규정에 따라 수정하여 전사하세요.

작업화면과 조작방식

    • 아래 그림은 작업 화면 조작 방법에 대한 상세 내용입니다.
    • 작업에 앞서 아래 화면 조작 방법과 작업 내용을 꼭 숙지해 주세요.

Updated on 2021년 10월 28일