본문 바로가기
언어학

음성 변환

by 키리타니 2023. 2. 15.
반응형

품사 부착

품사 부착이란, 형태소 분석을 통해 나온 결과 중 가장 적합한 형태의 품사를 부착하는 것을 말한다. 보통적으로 태거라고 하는 모듈이 이 기능을 수행한다. 이는 형태소 분석기가 출력한 다양한 분석 결과 중에서 문맥에 적합한 하나의 분석 결과를 선택하는 프로그램을 기능별로 분할한 논리적인 일부분이라 할 수 있다. 분석 시 문맥 좌우에 위치한 한 단어나 문장이 두 가지 이상의 뜻으로 해석될 수 있는 현상이나 특성 등의 해소가 될 수 있는 힌트의 정보를 이용해서 적합한 분석 결과를 선택한다. 보통 태거는 대규모의 품사부착 말뭉치를 이용해서 구현하는데 현재로는 은닉 마르코프 모델(HMM)이 널리 사용되고 있다.

 

구절 단위 분석

구절 단위 분석이란, 구 단위 분석은 명사구, 동사구, 부사구 등의 단위를 의미한다.

아래의 문장을 보면 쉽게 이해할 수 있다.

1.     서울시 서초구 서초동에 있는 가장 유명한 회사는 어디인가요? → 서울시 서초구 서초동에 있는 가장 유명한 회사는 어디인가요?

2.     이 해결책은 정말이지 여기에는 적합하지 않아. → 이 해결책은 정말이지 여기에는 적합하지 않아.

절 단위 분석은 중문, 복문 등의 문장을 단문 단위로 분해하는 역할을 수행한다.

 

구 단위 분석을 먼저 수행하고 절 단위 분석을 해서 보다 큰 덩어리로 만든다. 이러한 분석은 다음 단계인 구문 분석에서의 중의성을 해소하는 데 매우 중요한 역할을 수행한다고 할 수 있다.

음성 처리는 주로 디지털화된 음성 신호를 컴퓨터에서 처리를 하는 일련의 과정을 말한다. 음성 처리의 실용화 예로 음성 압축한 MP3와 음성 인식을 이용한 접수 안내 시스템 (ARS) 등이 있다.

음성 인식(Speech Recognition)이란, 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT(Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.

요즘은 일반 고객센터 안내 전화에도 이런 음성 인식이 적용되어 이용되고 있다.

그다음 분야로 화자 인식도 있다. 화자 인식이란, 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 한다.

음성 합성은 말소리의 음파를 기계가 자동으로 만들어 내는 기술이다. 간단히 말하면, 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. 다른 말로는 TTS(text-to-speech)라고도 한다.

음성의 분절음을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 diphone 처리라고 한다. 음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.

 

음성 합성이란 즉, 인위적으로 사람의 소리를 합성하는 시스템이다. 텍스트를 음성으로 변환한다는 데서 텍스트 음성 변환 (text-to-speech, 줄여서 TTS) 시스템이라고 부르기도 한다. 또한 발음 기호를 음성으로 변환하는 시스템도 있다.

 

우리 현대 사회에서 많은 활용이 있다. 그 활용 사례를 알아보자.

사람이 말을 녹음하면 대사가 바뀔 때마다 그 부분을 다시 녹음해야 하지만, 음성 합성 기술만 있으면 데이터를 작성만 하면 다시 녹음할 필요가 없다. 따라서, 음성 합성 기술은 문자를 읽기 어려운 장애인이나 문자를 읽을 수 없는 사람(아이, 외국인 등)에게 화면 읽기 소프트웨어로서 오랫동안 쓰이고 있어 말을 발표하는 것이 곤란한 사람이 대체 수단으로써 이용하는 경우도 많다. 이 기술을 활용하는 분야는 음성파일이 필요한 전화 안내 멘트, 유튜브 음성파일, 교육용 영상 음성파일 등 위메이크보이스와 같은 TTS기술을 활용한 음성파일 제공회사이다.

또한 장애인 웹접근성 분야인 스크린리더 기술이 있다. 스크린리더 기술은 Jaws와 같은 PC형 스크린리더와 보이스몬 Archived 2014 12 23 - 웨이백 머신, 웹톡스 와 같은 웹스크린리더 방식의 두 가지가 있으며, PC형 스크린리더는 전맹시각장애인이 주로 사용하며, 웹스크린리더는 저시력시각장애인과 난독증과 같은 학습장애, 인지장애인과 노인, 다문화가족 등의 웹접근성을 지원하기 위해 사용된다. 또한 최근에 애플의 보이스오버라는 기술은 아이폰과 같은 모바일기기형 스크린리더가 다수 사용되고 있다. 이와 같은 기술로는 AHS사의 VOICEROID가 있다. 또한 이를 이용하여 VOCALOID라는 음성 합성 기술을 이용한 음악 소프트웨어도 있는데, 인공적으로 인간의 목소리를 내어 노래를 불러주는 소프트웨어이다.

 

텍스트 음성 변환 시스템

텍스트 음성 변환 시스템은 프런트 엔드와 백엔드 두 부분으로 구성된다. 일반적으로 프런트 엔드는 사용자가 입력한 텍스트에서 기호화된 언어 표현 (symbolic linguistic representation)을 내보낸다. 백엔드는 합성된 음성의 파형을 내보낸다. 출력되는 음성이 얼마나 현실의 사람의 목소리를 닮아 있는가, 출력되는 음성을 얼마나 잘 알아들을 수 있는가로 평가한다.

 

프런트 엔드

텍스트의 정규화, 프리프로셋싱, 토큰화 등으로 불리기도 한다. 또 하나는 각 단어를 발음 기호로 변환하여 텍스트 숙어, 단어나 문장, 문장 등의 운율 단위로 분할하는 것이다. 낱말 발음 기호를 할당 작업을 텍스트 음소 (text-to-phoneme, 줄여서 TTP) 변환 또는 서기소음소 (grapheme-to-phoneme, 줄여서 GTP) 변환이라고 부른다. 프런트 엔드는 두 가지의 큰 일을 한다. 그중 하나는 텍스트 안의 숫자나 생략 표현을 읽을 때 표현으로 변환하는 것이다. 발음 기호와 운율 정보를 조합하여 기호화된 언어 표현을 만들어서 프런트 엔드로 내보낸다.

 

백엔드

프런트 엔드가 내보낸 결과를 바탕으로 보다 자연스러운 음성으로 만들기 위해 운율 등의 음성을 조정하여 실제 음성 데이터를 출력한다. 이 과정에서 음성의 특성이 정해지기 때문에 음성 합성 소프트웨어만의 색채가 나오는 경우가 많다.

 

운영 체제에서의 음성 합성

애플 운영체제 - 1984년에는 애플 컴퓨터에 매킨토크(MacInTalk) 기능을 탑재했다. 이후에도 새로운 OS 버전이 나오면서 음질이 개선되고 있다. 또한 음성 인식도 도입하고 있으며, 시각 장애인을 위한 지원 프로그램이었던 플레인토크(PlainTalk)의 기능을 통합했다. Mac OS X v10.4 이상에는 보이스오버(VoiceOver)라는 음성 합성 기능이 제공되고 있다.

마이크로소프트 윈도 - 윈도에서는 SAPI라고 하는 오디오 관련 API 제공하고 있다. 음성 합성에서는 내레이터(Narrator)라는 음성 합성 프로그램이 추가되었다(영어). 콜 센터 등의 사용자에게 음성 인식과 음성 합성 패키지로 마이크로소프트 스피치 서버(Microsoft Speech Server)를 제공하고 있다.

반응형

'언어학' 카테고리의 다른 글

음성 변환과 합성, 자동 번역 및 번역 지원  (0) 2023.02.17
의미론과 화용론  (0) 2023.02.15
담론과 자연언어  (0) 2023.02.14
수사학  (0) 2023.02.14
비교 언어학 과 법언어학  (0) 2023.02.13

댓글