언어의 패턴

대부분의 사람들은 수학이 언어 구조 연구 - 사람들이 매일 사용하는 영어, 스페인어, 일본어 등의 실제 언어들의 구조연구 - 에 적용될 수 있다는 사실을 매우 의아하게 여긴다. 일상 언어는 전혀 수학적이지 않다. 도대체 어디가 수학적이란 말인가?

아래 A, B, C를 한번 보자. 당신이 본 각각의 문자열이 참된 의미에서 문장인지 아닌지 오래 머뭇거리지 말고 대답해보라.

A. 생물학자들은 스피넬리 모르페니움이 연구할 가치가 있는 흥미로운 종임을 발견했다.

B. 많은 수학자들은 2차 상호성에 매료되었다.

C. 바나나는 분홍색 왜냐하면 수학 규정하다.

당연히 당신은 오래 생각할 필요없이 즉각적으로 A와 B가 올바른 문장이고 C가 그렇지 않다고 판정했을 것이다.

그러나 A에는 당신이 한번도 본 적이 없는 단어들이 들어가 있다. 내가 어떻게 확신하느냐고?  ' 스피넬리 ' 와 ' 모르페니움 '은 내가 만든 단어이기 때문이다. 그러니까 당신이 고민하지 않고 선택한 문장 속에는 사실상 전혀 단어가 아닌 것들이 들어 있다!

B의 경우, 모든 단어들이 올바르며, 문장도 사실상 참이다. 그러나 당신이 전문 수학자가 아닌 한, 당신은 아마도 ' 2차 상호성' 이라는 말을 전혀 접해보지 못햤을 것이다. 하지만 당신이 B를 올바른 문장으로 판정한 것은 잘한 일이다.

다른 한편, 당신은 전혀 머뭇거림 없이 C가 문장이 아니라고 판정했을 것이 분명하다. C에 들어 있는 단어들은 모두 익숙한 단어들이지만 말이다.

당신은 어떻게 이토록 놀라운 능력을 거의 아무 애씀도 없이 발휘한 것일까? 보다 엄밀하게 질문하자면, A와 B를 C와 다르게 만드는 것이 도대체 무엇일까?

그 무엇은 분명 문장이 참인지 여부와, 혹은 당신이 그 문장을 이해하는지 여부와 관계가 없다. 뿐만 아니라 그 무엇은 당신이 문장 속의 단어 모두를 아는지 여부나, 그 단어들이 정말 단어들인지 여부와도 상관이 없다. 중요한 것은 문장의 (혹은 비문장의 ) 일반 구조이다. 다시 말해서 단어들이 (혹은 비단어들이) 조합되는 방식이 결정적으로 중요하다.

이 구조는 물론 고도로 추상적인 대상이다. 당신은 개별 단어나 문장을 가리키는 방식으로 그 구조를 가리킬 수 없다.당신이 할 수 있는 최선의 일은, 앞의 A, B가 올바른 구조이며, C는 그렇지 않다고 말하는 것 뿐이다. 그리고 그 자리가 바로 수학이 개입할 자리이다. 왜냐하면 수학은 추상적 구조의 과학이기 때문이다.

우리가 서로에게 말하고 글을 쓰고 서로를 이해하기 위해 반의식적으로 애씀 없이 의지하는 문장의 추상적 구조는 소위 언어의 통사구조 이다. 그 구조를 기술하는 ' 공리들 ' 의 집합은 언어의 문법이라 불린다. 이런 방식으로 언어를 고찰하는 것은, 1930년대와 1940년대에 개발된 수리 논리학으로부터 영감을 받아 비교적 최근에 이루어진 성과이다.

19세기와 20세기 전환기에 언어의 역사적 측면에 관한 연구로부터, 즉 언어의 뿌리와 발전에 관한 연구(흔히 역사적 언어학, 혹은 문헌학이라 불리는 연구)로 부터, 역사와는 상관없이 특정한 한 시점에서 존재하는 의사소통 체계로서의 언어를 분석하는 연구로의 전희가 일어났다. 이런 종류의 연구는 일반적으로 공시적 언어학이라 불린다. 수학에 기반을 둔 현대 언어학은 이 공시적 연구로부터 발전하였다. 역사적 언어학으로부터 체계로서의 언어 연구로의 전희는 주로 유럽의 소쉬르, 그리고 미국의 보아스와 블룸필드의 업적이다.

특히 블룸필드는 과학적인 언어학 연구를 강조했다. 그는 철학자 카르납과 빈 학파의 철학적인 입장인 논리실증주의의 적극적인 지지자였다. 당대의 논리학 연구 및 수학의 토대 연구에, 특히 힐베르트 프로그램에 고무된 논리실증주의는 모든 의미 있는 진술들을 명제 논리학과 감각 자료(당신이 보고 듣고 만지고 냄새맡는 것)의 조합으로 환원하려 했다. 몇몇 언어학자들, 특히 미국의 해리스는 블룸필드보다 한 걸음 더 나아가 언어 연구에 수학적 방법이 적용될 수 있다고 제안했다.

언어의 통사구조를 기술하는 공리들을 찾는 작업은 미국 언어학자 촘스키에 의해 시작되었다. 물론 그런 연구는 백여 년 전에 훔불트에 의해 제안된 바 있다. 촘스키는 이렇게 주장했다. " 한 언어의 문법을 기록하는 것은, 언어와 관련된 관찰을 설명하기 위해 일반성들의 집합, 즉 이론을 구성하는 것이다. "

혁명적으로 새로운 촘스키의 언어 연구 방법은 1957년 출간된 책 통사구조에서 제시된다. 이 짧은 책은 - 본문은 겨우 102쪽이다 - 출간 후 수년 안에 미국 언어학을 바꾸어놓았다. 미국 언어학은 인류학의 한 분야에서 수학적 과학이 되었다(유럽에 미친 영향은 미국보다 덜했다.)



중략



촘스키는 우리 모두가 공유하는 몇 가지 언어 패턴들을 포착하기 위해 대수학을 사용했다. 그러나 수학자들이 언어에서 발견할 수 있는 다른 패턴들도 있다. 그중 한 패턴은, 우리가 쓴 글로부터 우리를 식별하는 데 이용될 수 있다. 충분히 긴 글이 주어진다면, 수학자는 글을 쓴 사람이 누구일 개연성이 가장 큰지 알아낼 수 있다. 이를 가능케 하는 것은, 우리가 전형적으로 사용하는 다양한 단어들의 상대적 사용 빈도가 특정한 수량적 윤곽을 나타내기 때문이다. 이 윤곽을 통해 수학자는, 비록 지문 감식보다는 정확성이 떨어질지라도, 지문 감식과 거의 유사한 방식으로 우리를 식별할 수 있다.

이 식별 방법이 최초로 사용된 사례 중 하나는 여러 연방주의자 문건의 저자가 누구인지의 문제를 해결하기 위해서였다. 1962년 미국 수학자 모스텔러와 윌리스는 단어 패턴 식별법을 이용해서 연방주의자 문건의 저자를 추적했다. 그 문제는 미국 헌법의 기원을 연구하는 학생들에게 중요한 관심사였다.

연방주의자라 불리는 문건은 1787년에서 1788까지 해밀턴, 제이, 메디슨에 의해 발표된 85편의 문서들의 묶음이다. 문건의 목적은 뉴욕 주 주민들이 새 헌법을 인준하도록 설득하는 것이다. 각각의 문서에는 실제 저자의 이름이 표기되어 있지 않기 때문에 헌법사학자들은 문서들의 실제 저자가 누구인가, 라는 의문을 품지 않을 수 없었다. 그 문서들은 미국의 헌법을 정하고 미국의 미래를 결정한 사람들에 관한 지식을 주기 때문에 문서들의 저자에 관한 의문은 매우 큰 관심사였다. 문서들 중 15편을 제외한 나머지에 관해서는 역사적 증거를 토대로 저자가 밝혀졌다. 51편은 해밀턴에 의해, 14편은 매디슨에 의해, 그리고 5편은 제이에 의해 쓰여졌다는 것이 일반적으로 받아들여졌다. 나머지 15편에 대해서는 저자가 밝혀지지 않았다. 이들 중 12편의 경우에는 해밀턴이나 매디슨이 저자라는 추측이 있었고, 나머지 3편은 두 사람의 공동 저작이라는 추측이 있었다.

모스텔러와 윌리스의 전략은 글 속에서 패턴들을 찾아내는 것이었다. 촘스키를 비롯한 여러 언어학자들이 연구한 통사적 패턴이 아니라 수적인 패턴을 찾아내는 것이었다. 이미 언급했듯이 이 작업이 가능한 근거는, 모든 개인들이 고유한 문체를 가지고 있고 그 문체의 요소들이 통계적으로 분석될 수 있다는 것이다. 논란이 되는 문서에서 추출한 다양한 수량적 값들과 저자가 확실히 밝혀진 문서에서 추출한 값들을 비교함으로써 저자가 누구인지 밝힐 수 있을 것이다.

확실히 조사할 수 있는 수 중 하나는, 작가가 한 문장 안에서 사용하는 단어의 개수이다. 문장 속 단어 개수는 글의 주제가 무엇인가에 따라 달라질 수 있지만, 연방주의자 문건에서처럼 한 주제를 다룰 경우에는, 한 작가의 평균 문장 길이는 어느 문서에서나 두드러지게 일정하다.

그러나 연방주의자 문건의 경우 이 추정 방법은 너무 허술했다. 저자가 확실히 밝혀진 문서들에서 조사한 바에 따르면, 해밀턴은 평균 34.5 단어를 사용했고, 매디슨은 평균 34.6단어를 사용했다.단지 문장의 길이만 가지고는 두 사람 중 누가 저자인지 판정할 수 없었다.

보다 세밀해 보이는 조사 방법들 역시, 예를 들어 미국식으로 ' while ' 을 쓰지 않고 영국식으로 ' whilst '을 쓴 빈도를 조사하는 것 역시 확실한 결론을 내려주지 못했다. 결국 유효한 판정 방법이 된 것은 by, to, this, there, enough, according 등을 비롯해서 세심하게 선정된 30개의 일상 단어들을 사용하는 상대적 빈도를 조사하는 것이었다. 세 작가가 이 단어들을 사용하는 빈도를 컴퓨터로 분석해서 수량적 패턴을 살펴보니 대단히 극적이었다. 각 작가의 글은 뚜렷한 수량적 ' 지문 ' 을 드러냈다.

예를 들어 저자가 확실히 밝혀진 글들에서 해밀턴은 on 과 upon을 거의 같은 정도인 1천 단어당 3회 비율로 사용했다. 이와는 대조적으로 매디슨은 upon을 거의 사용하지 않았다. 해밀턴은 the를 1천 단어당 평균 91회, 매디슨은 94회 사용했다. 따라서 이 기준으로는 둘을 구분할 수 없다. 그러나 제이는 the를 1천 단어당 67회 사용했다. 그러므로 the의 사용을 기준으로 제이와 나머지 두 작가를 구분할 수 있다.


그림은 저자들이 by를 사용한 빈도를 나타낸다.

그 자체로만 본다면, 어떤 단어 하나의 사용 빈도에서 얻은 증거는 그럴듯하기는 하지만 확신을 주기에는 부족하다. 그러나 30개 단어 전체에 대한 세밀한 통계적 분석은 훨씬 더 신뢰할 만하다. 최종 결론이 오류일 가능성은 매우 적을 것이다.

분석에 의한 결론은, 논란이 된 문서들의 저자는 매디슨임이 거의 확실하다는 것이었다.

이 시대의 많은 사람들이 스스로가 수학에 무능하다고 말한다는 것을 생각하면, 우리의 매일매일의 언어 사용이 비록 반 의식적일지라도 수학과 관련되어 있다는 언어학자들과 통계학자들의 연구 결론은 매우 흥미롭다. 촘스키가 보여주었듯이, 문법적 문장의 추상적 패턴들은 수학적이다. 최소한 수학적으로 기술했을 때 가장 훌륭하게 기술된다. 모스텔러와 월리스의 연방주의자 문건 분석은, 글을 쓸때 우리가 각자 지문 만큼이나 독특한 단어 사용 빈도의 수학적 패턴을 가지고서 쓴다는 사실을 보여주었다. 갈릴레이가 말했듯이 수학은 우주의 언어이다. 그러나 그뿐만이 아니다. 수학은 우리 자신을 이해하는 데도 도움을 준다.




수학의 언어(The Language of Mathmatics) : 안보이는 것을 보이게 하는 수학 (Making The Invisible Visible) ・ 케이스 데블린 지음 : 전대호 옮김 에서 발췌



요새는 MIB등이 웹 문서 긁어서 증거로도 채택합니다!!!!



Ps...아놔 웹문서의 글들 지워야 하는데 - 증거인멸!!! - 귀찮고 못지우는 것도 많아서 캐좌절..orz

by 페페 | 2008/11/15 16:38 | 과학-사회 | 트랙백 | 덧글(4)

트랙백 주소 : http://Kudan.egloos.com/tb/3980888
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 玄武 at 2008/11/15 17:23
99년에 올라왔던 일본 공안 개인정보가 아직도 돌고 있는걸보면...그냥 한번올리면 낙장불입입니다.. ;;
Commented by 페페 at 2008/11/15 17:32
요새 박휘떼가 하는 짓을 보면 역시 최대한 항적을 지워야 될듯한!!
Commented by organizer at 2008/11/16 17:16
글 내용은 어딘가 책에서 본 기억이 있는데... 묘한 기분이 듭니다.
Commented by 페페 at 2008/11/16 18:12
언어학 계통 텍스트나 국내에도 세익스피어 원작자 논쟁으로 가끔 실렸던 걸로 기억납니다.

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶