본문 바로가기
언어학

말뭉치

by 키리타니 2023. 2. 11.
반응형

말뭉치의 요건과 종류

문서를 많이 모은다고 해서 모두 말뭉치가 되는 것은 아니다. 말뭉치는 몇 가지 요건을 갖추어야 한다. 텍스트 수집이나 입력 과정에서 원래의 내용이나 형태의 누락이 있어서는 절대 안 된다. 즉 원형을 유지하고 있다는 보장이 필요하다.

또한, 언어의 다양한 변이를 담아내야 한다. 즉 언어의 특성을 잘 반영할 수 있는 구성으로 조합되어야 한다. 해당 언어의 통계적 대표성을 지녀야 하며, 유의미한 규모로 확보되어야 한다.

말뭉치가 가져야 하는 두 가지 특성은 '대표성' '균형성'이라고 볼 수 있다. 표본이 모집단을 통계적으로 대표할 수 있는가 바로 이것이 보장되지 못하면 그 표본으로 하는 연구는 가치가 없는 것이다. 말뭉치의 대표성은 이 통계적 대표성을 의미한다. 그렇다고 해서 대표성을 너무 단순하게 크기의 문제로 환원하기도 어렵다. 영어의 경우, 사용 빈도가 많은 3000어 정도면 일상회화의 95%가 해결될 정도로 어휘가 심하게 편중되어 있다. 하지만 적게 사용된다고 해서 그것이 덜 중요한 단어라고 할 수는 없다. 말뭉치의 균형성은 언어의 미묘한 면을 담고 있는 5%에 대한 배려를 말한다. , 다수가 가지는 대표성 못지않게 소수를 배려하는 균형성이 필요한 것이다. 이를 위해서는 범주와 유형에 따른 세심한 구분이 필요하다.

말뭉치에는 그 특성에 따라 여러 종류가 있다.

용도: 균형 말뭉치(balanced/core corpus), 학습 말뭉치(training corpus), 학습자 말뭉치(learner's corpus), 방언 말뭉치(dialect corpus)

가공 정도: 원시 말뭉치(raw corpus), 주석 말뭉치(tagged/annotated corpus), 분석 말뭉치(analyzed corpus)

시대: 공시적 말뭉치(synchronic corpus), 역사 말뭉치(historical/diachronic corpus)

변화여부: 정적 말뭉치(static corpus), 동적 말뭉치(dynamic/monitor corpus)[8]

균형 말뭉치는 말뭉치의 모집단 구성, 표준화 방법 등을 고려하여 구축해야 한다. 주석 말뭉치는 형태 정보 또는 통사 정보 또는 의미 정보 등을 포함하는 말뭉치이다.

참고로 21세기 세종 계획의 결과로 구축된 말뭉치 중에는 현대국어 구어 전사 말뭉치, 한영/한일 병렬 말뭉치, 북한 및 해외 한국어 말뭉치, 역사 자료 말뭉치, 전문 용어 말뭉치 등의 다양한 특수 말뭉치가 포함되어 있다.

 

말뭉치의 구축

한국어 균형사전을 만들기 위해서는 한국어의 총체를 반영할 수 있도록 말뭉치를 골고루 구성해야 한다고 생각할 것이다. 다만, 만약 경제용어사전을 만든다고 생각하면 경제 분야의 문서들로만 말뭉치를 만들면 충분하다.

말뭉치를 구축할 때 처음 발생하는 문제는 어떤 문서에서 어느 정도의 양을 고를 것인가이다.

예를 들어 연세한국어사전을 만들 때는 독서량이 어휘사용/해독량과 비례할 것이라는 가정에 따른 것이지만, 일반인의 독서실태를 조사하여 신문 33%, 잡지 20%, 문학 18%, 취미/교양 10%, 수기/전기/실화 9%, 교과서 5%로 비중을 정했다. 만약 다른 가정을 세운다면 또 다른 결과가 나올 것이다. 세종계획 말뭉치는 연세 말뭉치에 비해 규모도 방대하고 준구어 텍스트까지 포함하는 등 좀 더 범용으로 만들어졌다. 하지만 전체적인 장르 간 비율 등을 보면 연세 말뭉치와 많이 다르다고 보긴 어렵다. 고려대학교 한국어 말모둠은 세종계획 말뭉치를 구축한 김흥규와 강범모가 만든 것이라 전체적인 체계는 비슷하나 비율이 좀 다르다.

말뭉치를 구축할 때는 1차 설계, 구축, 분석, 2차 설계, 구축, 분석 등 이렇게 순환적으로 검토하면서 진행한다. 실험적으로 구축한 부분 말뭉치가 적당한지 검증을 해서 다시 2차 말뭉치를 구축하는 것이다. 이를 기존에 알려진 사실들과 대조하여 검증이 가능하다. 한국어의 품사는 대략 어떤 비율을 가진다고 한다. 왜냐하면, 고빈도어의 사용 빈도 등이 알려져 있기 때문이다. 따라서, 좀 더 상세한 검증도 필요하다. 예를 들어 감탄사나 선어말 어미, 대명사의 사용 빈도는 장르에 따라 변화가 있다. 이런 특성에 기대어 말뭉치가 균형성을 가지게 되었는지, 아니면 구축자의 의도에 맞게 만들어졌는지를 판단해 볼 수 있다.

말뭉치는 클수록 좋겠지만, 크면 그만큼 다루기 힘들어지고 또 수집하기도 어려운 것이 사실이다. 따라서 신뢰도를 어디까지 가져갈 것인가에 맞춰 크기를 결정하면 된다. 예전에는 어떻게 대표성을 유지하면서 말뭉치의 크기를 줄일 것인가를 고민할 수밖에 없었다. 왜냐하면, 컴퓨터의 성능이 그리 좋지 못했기 때문이다. 이 문제는 여전히 유효하고, 그래서 글의 앞쪽 일부만을 취한다거나 하는 방법들도 있었지만 지금은 그렇게까지 조절하진 않아도 기술의 발달로 다량의 문서를 다룰 수 있다고 본다.

말뭉치 언어학의 연구방법으로 주석달기, 추상화, 분석의 세 가지를 얘기한다. 주석달기(annotation)는 텍스트에 구조를 부여하는 것이다. 주석은 품사 주석, 구문 주석 등 목적에 따라 다양하게 달 수 있다. 추상화(abstraction)는 분석의 틀을 마련하는 것이다. 언어학 이론과 말뭉치를 함께 고찰하여 분석하고자 하는 목적에 맞는 틀을 고안한다. 분석(analysis)은 통계적으로 자료를 재 조합하여 해석하는 것이다.

 

말뭉치의 활용

말뭉치 분석으로 얻는 가장 유용한 정보는 빈도이다. 특정 어휘, 특정 환경이 말뭉치 내에서 얼마나 많이 나왔느냐를 관찰하면 이후 연구의 방향을 잡을 수 있기 때문이다. 또 언어학적 가설을 검증할 때 말뭉치 내에서의 빈도는 강력한 증거가 된다. 이 빈도는 단순하게 수치만을 볼 수도 있으나 적절한 비교를 위해서는 정규화할 필요가 있다. 그 과정에서 통계적 방법론이 필요하게 되며 주로 활용되는 방법은 chi-squared test이다.

언어 연구

말뭉치를 연구하면서 연어도 좀 더 정량적으로 연구할 수 있게 되었다. 단순한 공기관계인 것인지 아니면 정말 연어관계에 있는 것인지를 확인하기 위해서는 상호정보량(mutual information)이나 표준 점수(Z-score) 등의 계산이 유용하다. 상호정보량은 A B가 인접하는 결합사건일 때의 확률과 그렇지 않은 독립사건일 때의 확률을 비교한 값이다. 이런 기준을 통해 선택된 연어는 상당수 사전에 실리고 있다.

다만, 말뭉치에서 고빈도로 발견된다고 해서 연어로 볼 수는 없다. 말뭉치에서 제시된 후보를 언어학자가 눈으로 살펴서 후보의 의미가 얼마나 투명한가를 반드시 판별해야 한다. 반대로 언어학자에 의해 선택된 연어가 충분한 공기성을 가지는가를 파악하기 위해서 말뭉치를 활용할 수 있다. 연어의 핵에서 2-3 어절 정도의 거리에 놓인 연어의 변까지 자동으로 조사하는 것은 말뭉치의 도움이 없이는 현실적으로 거의 불가능한 작업이다. 또 연어는 활용에 제약이 있거나 아예 특수한 형태로만 사용되기 때문에 이를 기술할 때도 말뭉치를 참조하지 않으면 안 되기 때문이다.

그렇다면 언어의 변이 연구는 어떻게 될까?

말뭉치는 목적에 따라 다르게 구축할 수 있다고 위에서 설명하였다. 예를 들어 구어 말뭉치를 따로 구축하면 문어와 대비되는 구어의 사용 양상을 찾아볼 수 있다. 마찬가지로 공적인 문서와 사적인 문서를 구분해 두면 특정 어휘나 스타일이 다른 영역에서 어떻게 사용되는가를 계량적으로 파악할 수 있다. , 인종, 국가, 계급 등 적절한 분류만 있다면 얼마든지 분야별 말뭉치를 만들 수 있다. 이러한 접근은 사회언어학, 심리언어학 등에서 특히 유용하다.

반응형

'언어학' 카테고리의 다른 글

수사학  (0) 2023.02.14
비교 언어학 과 법언어학  (0) 2023.02.13
형태론과 통사론  (0) 2023.02.09
음성학과 음운론  (0) 2023.01.27
언어학과 그 현실에 대해서  (0) 2023.01.26

댓글