닫기

글로벌이코노믹

"코퍼스와 IT만나면 산업 패러다임이 바뀐다"

공유
1

"코퍼스와 IT만나면 산업 패러다임이 바뀐다"

[스페셜]한국코퍼스언어학회 김두식 회장 Vs A.I.코퍼스 신한진 대표

코퍼스 기반 구글폰 뛰어넘는 '통역률 85%폰' 내년 초 나와


학습자 코퍼스 활용하면 전형적인 오류 찾아내 쉽게 교정 가능


인터넷검색서 휴대폰 음성인식까지 일상생활서 광범위하게 활용


음성인식 기술활용 항공편예약‧증권정보 안내시스템 등 구축

▲한국코퍼스언어학회김두식회장(오른쪽)과A.I.코퍼스신한진대표가최근고려대에서열린코퍼스언어학회가을학술대회에서코퍼스란무엇인가와코퍼스의교육활용등에대해이야기를나누기에앞서기념촬영을하고있다./사진=윤나연기자
▲한국코퍼스언어학회김두식회장(오른쪽)과A.I.코퍼스신한진대표가최근고려대에서열린코퍼스언어학회가을학술대회에서코퍼스란무엇인가와코퍼스의교육활용등에대해이야기를나누기에앞서기념촬영을하고있다./사진=윤나연기자
[글로벌이코노믹=노정용기자] ‘말뭉치’로 번역되는 ‘코퍼스(corpus)’가 주목을 받고 있다. 사실 코퍼스란 용어는 일반인에게 다소 낯설지만 인터넷 검색에서부터 휴대폰 음성인식에 이르기까지 우리 실생활 속으로 깊숙하게 들어온 지 오래다. 특히 ‘빅데이터(Big Data)’가 화두가 되고 있는 요즘, 코퍼스는 대용량 언어처리기술과 통‧번역기로 주목의 대상이 되고 있다.

우리가 사용하는 어학사전에서도 광범위하게 코퍼스가 이용되고 있는 가운데 한국코퍼스언어학회는 최근 고려대에서 가을학술대회를 개최하고, 코퍼스를 언어교육에 활용하는 방안에 대해 논의했다. 전문가들은 코퍼스를 교육과 IT 등에 활용하면 박근혜 정부가 추구하는 창조경제의 한 축으로 발전할 수 있을 것이라고 입을 모은다.

글로벌이코노믹는 한국코퍼스언어학회 김두식 회장과 15년 전부터 국내 최초로 영어 코퍼스를 구축해온 ㈜A.I.코퍼스 신한진 대표와의 인터뷰를 통해 코퍼스란 무엇이며, 코퍼스를 어떻게 우리 생활에 활용할 수 있을지에 대해 알아본다. <편집자 주>

-코퍼스란 무엇입니까?

“코퍼스(corpus)란 문자 또는 음성 텍스트 모듬을 가리키는 말입니다. 원래 언어 연구를 염두에 두고 실제 사용된 말이나 글을 컴퓨터로 정보 처리할 수 있게 체계적으로 텍스트로 구축하여 모아둔 전자 형태의 텍스트 집합을 말하는 것이지요. 우리말로는 ‘말뭉치’ 또는 ‘말모둠’으로 번역할 수 있어요. 일반적으로 코퍼스는 문어(written language)가 대부분을 차지하지만 최근 들어 음성언어 코퍼스 구축이 한창입니다. 그러나 현재까지 대용량으로 구축된 코퍼스는 거의 문어에 제한되어 있다는 점을 감안한다면 ‘글뭉치’ 또는 ‘글모둠’이라고 하는 게 적합하지요.”

김두식 회장에 따르면 현대적 의미의 코퍼스는 컴퓨터에 저장하여 컴퓨터로 처리할 수 있도록 전산화된 형태의 텍스트로 구성된다. 이러한 컴퓨터 코퍼스로서 최초로 구축된 것이 1960년대 초 브라운 코퍼스(Brown Corpus)다.
▲김두식한국코퍼스언어학회회장
▲김두식한국코퍼스언어학회회장
“코퍼스는 여러 기준에 따라 다양한 유형이 있어요. 텍스트의 형식에 따라, 출판된 형태 그대로의 텍스트를 전자형태로 모아 놓은 원시 코퍼스(raw corpus)와 필요한 목적을 위해 가공하고 표지를 붙여놓은 주석 코퍼스(annotated corpus)로 나눌 수 있어요. 수반하는 언어 유형에 따라 영어 코퍼스, 국어 코퍼스, 독일어 코퍼스 등이 있을 수 있고, 언어 매체의 성격에 따라 문어 코퍼스(written corpus)와 구어 코퍼스(spoken corpus)로도 나눌 수 있어요. 또한 언어 연구의 구체적 목적에 따라, 텍스트를 시대별로 구분해 놓은 역사 코퍼스(historical corpus), 제2언어 습득이나 외국어 교육용의 학습자 코퍼스(learner corpus), 언어 간의 대조 분석이나 번역 연구에 활용되는 병렬 코퍼스(parallel corpus), 문장의 통사적 분석이 표시된 형태로 모아놓은 통사 코퍼스(syntactic corpus) 등으로도 나눌 수 있습니다.”

코퍼스는 언어에만 국한되지 않고 최근에는 다양한 분야에 걸쳐 존재한다. 예를 들면 전자형태의 도서관, 번역, 음성인식, 인공지능, 산업분야의 문서, 자료, 통계 등의 빅데이터 등으로 존재하고 있는 것이다. 특히 데이터베이스로 구축된 코퍼스는 형태소나 검색 처리기술 등과 만나 새로운 산업을 탄생시킨다.

-그러면 코퍼스언어학이란 무엇인지요?

“코퍼스언어학은 코퍼스(말뭉치)를 기반으로 컴퓨터를 이용하여 제반 언어 현상을 연구하는 언어학의 한 분야입니다. 언어의 중심 분야인 통사론, 의미론, 음성학, 음운론, 화용론이 이론언어학의 연구대상이라면 코퍼스언어학은 이들 분야에 속하는 여러 현상에 대한 해답을 찾기 위해 코퍼스를 이용하여 언어를 분석하고 기술하는 연구방법론이라 할 수 있지요. 코퍼스언어학의 효시는 『현대 미국영어의 전산적 분석』(Computational Analysis of Present-Day American English: 1967)의 저자인 헨리 쿠체라(Henry Kucera)와 넬슨 프랜시스(W. Nelson Francis)이며 이들은 브라운 코퍼스를 사용했어요. 코퍼스언어학은 언어 분석을 위해 필요한 방법으로 어휘 빈도수(word frequency), 용례 추출(concordance), 연어 관계(collocation), 키워드(keyword), 단어군 찾기(N-gram) 등의 방법을 사용하고 있습니다.”

-한국코퍼스언어학회가 주최하고 고려대 언어정보연구소가 주관한 가을학술대회의 의의는 무엇이었습니까?

“크게 두 가지입니다. 하나는 코퍼스 분야에서 세계적 권위자들(Laurence Anthony 교수와 Charles Browne 교수)을 초청하여 그들로부터 직접 코퍼스 툴이나 소프트웨어의 운용 및 활용 방법을 배우는 일이고 나머지 하나는 국내외 코퍼스 전문학자들의 논문발표를 통해 코퍼스가 다양한 언어 연구에 활용될 수 있음을 보여줌으로써 국내외에서의 코퍼스 연구의 현주소를 확인하는 일이었습니다.”

-코퍼스를 활용하는 분야에는 어떤 것이 있으며 이를 언어교육에 활용하면 어떤 이점이 있는지요?

“코퍼스는 통사론, 의미론, 화용론 같은 이론 언어학은 물론이고 언어교육 및 대화‧담화분석, 전산언어학, 사회언어학, 법의학언어학 등의 응용언어학이나 사전편찬, 번역연구 등 다양한 분야에서 활용되고 있어요. 필요에 의해 인위적으로 만든 언어가 아니라 실제로 사용되는 언어 자료나 실제 사용된 상황 및 장르를 중심으로 언어교육이 이루어지기 때문에 실질적으로 교육의 효과가 상당히 크다고 할 수 있지요. 교재 등에서만 나오는 샘플 표현이 아닌 실생활에서 자주 사용되는 표현들을 다양한 방법, 이를테면 구조별(어휘/구/구문별)로, 빈도순으로, 상황별로, 장르별로 교육함으로써 실생활의 응용에 직접적인 도움을 줄 수 있어요. 특히 어휘나 구문 패턴의 경우 분야/영역별, 수준별로 기본 어휘를 코퍼스에서 지정해 활용하면 효율적으로 학생을 지도하거나 학생 스스로 학습할 수 있게 합니다. 학습자 코퍼스를 활용하는 경우는 비모국어 화자가 영어 등의 외국어를 사용하는 데 있어서의 전형적인 오류 패턴 등을 찾아내는 데도 크게 기여할 수 있다고 봅니다.”

-그러면 학교현장에서 코퍼스를 적용한 사례가 있는지요?

“크게 어휘 교육과 문법 교육, 작문 교육에 적용되고 있어요. 어휘의 경우에는 분야나 영역별로 높은 빈도 어휘를 선정하여 학습할 수 있고 문법의 경우에는 연어 관계(collocation) 즉, 함께 사용되어 나타날 수 있는 단어들(형용사와 중심명사, 동사와 목적어 등) 간의 관계를 코퍼스를 통해 검색하여 이들이 자주 함께 사용될 수 있는 단어들의 쌍을 모아 학습함으로써 효과적인 어휘나 구 단위의 습득을 가능하게 해줍니다. 또한 구문분석, 관용어, 구동사(phrasal verbs)의 습득을 위해서도 코퍼스를 이용하면 효율적이지요.”

김두식 회장은 한국인 영어학습자의 작문 사례를 코퍼스화 해놓은 ‘학습자 코퍼스’를 이용하면 영어학습자들이 주로 범하는 오류를 손쉽게 찾아내어 이를 집중적으로 교육할 수 있다고 한다. 지금은 몇몇 학교들에서 시범 적용하는 단계이지만 코퍼스를 기반으로 한 영어교수법을 적용한다면 교육의 효과가 매우 클 것이라는 진단이다.

▲신한진A.I.코퍼스대표
▲신한진A.I.코퍼스대표
A.I.코퍼스 신한진 대표는 대학 또는 학회가 구축한 언어학적 코퍼스와는 다른 측면에서 코퍼스를 구축, 울산 격동초등학교 영어말하기 수업과 중앙대 대학원생들의 실험논문, 한국교원대 박사논문 경남 창원사화초등학교 논문수업에서 코퍼스를 활용하여 수업을 진행한 바 있다고 설명한다. 코퍼스를 통한 학습 성취도를 조사한 결과 기존 학습에 비해 즐겁고 창의적인 교육환경으로 인해 약 20~30% 빠르게 학습능력이 향상된 것으로 보고되고 있다.

-코퍼스언어학은 기술을 동반한 학문으로서 검색이나 번역기에서 획기적인 전환을 가져올 것으로 주목하고 있는데, 코퍼스 관련 기술이 어디까지 발전할지 궁금합니다.

“지금까지는 BNC, COCA 등과 같이 코퍼스 구축이 한정된 자료에 국한되어 있었어요. 하지만 매일 자료가 축적 되는대로 사용가능한 열린 네이버, 구글과 같은 검색 툴을 이용하는 쪽으로 코퍼스 분석이 발전하고 있어요. 뿐만 아니라 코퍼스가 언어연구에만 한정되는 것이 아니라 다양한 학문의 주제에 맞추어 각 학문의 분야별로 코퍼스가 구축되고 있어요. 한 예로 사회 현상을 분석하기 위해 코퍼스를 기반으로 하여 소셜 네트워크 분석도 가능하도록 기술이 발전하고 있습니다. 한편으로는 음성 자료로 구성된 음성언어 코퍼스의 구축이 예상되어 전화 자동 응답 시스템의 기술 발전에 기여할 수 있을 것 같습니다. 또한 역사적 문서(사료 등)를 연구하는 데 사용되는 고고학 코퍼스는 고대국가들의 정치, 경제, 사회, 문화, 언어 등 시대상을 쉽게 비교 연구할 수 있게 할 것입니다. 결국 코퍼스는 인간이 남겨놓은 모든 문헌은 물론이고 심지어 유적까지 코퍼스화 함으로써 고고인류학의 발전에 기여할 날도 멀지 않은 것으로 판단됩니다.”

-산업분야에서도 코퍼스를 활용하기 시작했는데….

“산업분야의 가장 대표적인 예로 음성인식 활용을 들 수 있어요. 각종자료의 수정 및 관리, 철도 또는 항공편안내 및 예약, 받아쓰기시스템, 통역전화, 자동통역시스템, 여행정보안내시스템, 관광안내시스템, 음성구동 퍼스널컴퓨터, 증권정보안내 시스템, 음성 다이얼링 휴대폰 등에 적용되어 상용화가 진행 중에 있고, 자동통역시스템 개발에도 활용되고 있어요. 미국의 IT분야 전문리서치 회사인 가트너는 오는 2016년이면 자동통역기술이 보편화 될 것으로 예측한 바 있으며 미국 조지워싱턴대 빌 할랄 교수 또한 2017년에는 실시간으로 통역이 가능한 기술이 구현될 것이라고 전망하고 있습니다.”

코퍼스를 활용해 영어-한국어 통역폰을 개발하고 있는 ㈜A.I.코퍼스는 이러한 코퍼스를 기반으로 현재 약 85% 수준의 통역폰을 개발, 내년 초 출시를 앞두고 있다. 사람들이 언어의 제약 없이 서로 소통하고 거래할 수 있는 시대가 성큼 다가온 것이다.

통역기술의 경우 대부분의 번역기술회사가 기계어 문법중심의 언어분석을 통해 언어를 번역하고 있다. 반면에 ㈜A.I.코퍼스의 경우 말뭉치 대용량 병렬코퍼스와 인공지능의 ‘What if 추론기술’을 사용하기 때문에 번역결과에 큰 차이가 날 수 밖에 없다. ㈜A.I.코퍼스는 이를 위해 15년간 관련분야 언어전문가들과 인력, 그리고 자본 200억 원 이상을 투입하여 개발한 것이기 때문에 접근방법도 다르지만 코퍼스 기반 언어알고리즘 없이는 통역에 접근조차 할 수 없다. 세계 번역서비스의 대명사가 되어버린 구글의 경우 수천 명의 전문인력과 비용을 10년 이상 투입하고도 만족스러운 결과를 제공하지 못하는 것도 이러한 이유에 있다.

코퍼스는 빅데이터, 클라우드 등이 결합된 지능형 플랫폼인 스마트 네트워크분야에도 활용되고 있다. 스마트 네트워크는 기존 네트워크에 센서 등을 부착해 일상생활에서의 사용자 의도와 환경을 파악하고, 정보교환을 통해 상황에 적합하고 개인화 된 서비스를 스스로 생성‧제공하는 기술로 사용자의 상태와 행동패턴, 위치, 주변환경 등의 정보를 코퍼스로 구축하고 실시간으로 감지해 이를 사물지능통신으로 구현한다. 다시 말해 코퍼스로 구축된 수집된 정보를 연계‧분석해 사용자에게 적합한 서비스를 제공하는 데는 소프트웨어와 컴퓨팅 기술이 툴로 활용된다. 통신망에 스토리지와 서버가 연결돼 네트워크가 하나의 컴퓨터화 되고 스마트폰을 비롯하여 온갖 단말기가 연결되는 개념이다. 스마트 네트워크 세상에서는 모든 정보가 클라우드 기술로 통합되고, 세부 기능 구현은 소프트웨어를 통해 제공되며 결과적으로 코퍼스는 모든 산업과 경제에 새로운 혁신과 융합의 기초가 될 것이라는 전망이다.

-코퍼스를 민간 업체에 의해 구축되고 활용되는 사례가 있다면….

“여러 가지 기술적인 어려움과 막대한 개발 비용으로 인해 민간 업체 참여가 싶지 않아요. 하지만, ㈜A.I.코퍼스에서 코퍼스 분석 결과를 영어교육 프로그램에 접목한 소프트웨어를 개발하였어요. ㈜A.I.코퍼스는 코퍼스를 영어교육에 활용한 선두 기업이지 않나 생각합니다.”

-한국코퍼스언어학회는 코퍼스를 학문만이 아닌 산업에서 어떻게 활용해나갈 계획이신지요?

“코퍼스연구를 산업에 어떻게 적용시킬지에 대한 구체적인 계획은 아직 없지만, 코퍼스를 언어 교육에 활용해야 한다는 데는 이미 많은 학자들이 동의하고 있는 바입니다. 따라서 개인적인 생각입니다마는 각 분야의 학회에서 코퍼스로 통할 수 있는 공통분모를 뽑아 가칭 ‘한국코퍼스학회’라는 학술단체를 만들어 공동으로 다양한 분야의 학술활동을 전개한다면 긍정적인 성과가 있을 것으로 생각됩니다.”

사실 국내 코퍼스 연구는 영국, 미국, 호주, 일본 등에 비해 몇 년이나 뒤진 것으로 알려져 있다. 이미 미국이나 일본을 비롯한 주요 선진국은 10년 전 또는 수년전부터 관련 정책을 발표하고 실시해왔다. 현재는 코퍼스 관련 분야가 작은 시장규모이지만 성장성이 높은 데다가 다양한 산업과 연관돼 있기 때문에 관련학회나 교수, 전문가들의 관심과 민간 등과의 공동협력이 무엇보다 중요하다.