고아가 된 통사 ― 고래, 사라진 문자, 그리고 의미를 떠받치는 성긴 닻

언어가 작동하는 방식에 관해, 편안하지만 틀린 그림이 하나 있다. 그리고 그 틀린 방식이 기계에게는 뜻밖에도 중요해진다. 그 그림은 이렇게 말한다 ― 형식과 의미는 깔끔하게 둘로 나뉜다고. 단어의 모양과 그것을 엮는 규칙이 한쪽에 있고, 그 단어가 세계의 무엇을 가리키는가가 다른 쪽에 있다. 이 분할에서 깔끔한 결론이 나온다. 에밀리 벤더와 알렉산더 콜러가 ‘문어 사고실험’으로 유명하게 만든 그 결론 ― 형식만으로 훈련된 체계는 원리적으로 의미를 배울 수 없다.¹ 해저 케이블의 대화를 엿듣는 문어는 그 수다를 완벽하게 흉내 낼 수 있게 되어도, 코코넛이 무엇인지는 끝내 알지 못한다. 한 번도 만져본 적이 없기 때문이다.

어느 하루, 전혀 무관한 두 곳에서 뻗어 나온 실 한 가닥을 당겼다 ― 향유고래에게 ‘모음’ 비슷한 것이 있다는 최근의 보고, 그리고 해독되지 않은 고대 문자를 둘러싼 오랜 교착이다. 다 당기고 나서 확신한 것은, ‘깔끔한 이분할’이 환상이라는 것이었다. 형식과 의미의 벽은 분명히 존재한다. 하지만 그것은 그림이 놓아둔 자리에 있지 않다. 벽은 한 층 더 깊은 곳, 의미의 안쪽에 있다. 그리고 벽이 실제로 어디를 지나는지 찾아내면, 기계의 grounding(접지)에 관해 놀랄 만큼 희망적인 사실 하나가 굴러 나온다.

벽은 엉뚱한 자리에 있다

형식만으로 회수할 수 있는 것을, 외부 세계에 대한 요구가 단계적으로 커지는 세 층으로 나눠 보자.

첫째는 결합론 ― 통사와 음운, 즉 체계가 자기 자신과 맺는 관계다. 이것은 형식만으로 완전히 회수된다. grounding은 전혀 필요 없다. 둘째는 개념역할(conceptual role)이다 ― 어떤 기호가 무리를 이루고, 어느 것이 어느 것을 함의하며, 어느 것과 바꿔 쓸 수 있는가. 이것도 형식에서 대부분 회수된다. 분포 구조가 그 정보를 막대하게 실어 나르기 때문이다. 셋째는 지시(reference) ― 체계에서 세계로 뻗는 갈고리다. 이것만은 형식에서 증명 가능하게 회수할 수 없다. 어딘가 다른 곳에서 오는 닻이 필요하다.

그러니 벽은 형식과 의미 사이에 있지 않다. 벽은 의미의 내부, 개념역할과 지시 사이를 지난다. 벤더의 문어는 이 셋째 층에서 실패한다 ― 하지만 그들의 논변은 마치 의미 전체가 사라진 것처럼 말함으로써 그 실패를 과장한다. 의미의 대부분은 사라지지 않았다.

자연 실험

내가 아는 가장 선명한 증거는 역사가 우연히 돌려준 대조 실험이다. 선문자 B와 선문자 A ― 같은 에게 문자 계통에 속하고, 본질적으로 단 하나의 변수만 다르다. 닻이 살아남았는가, 아닌가다.

선문자 B는 1952년에 해독되었다. 결정적 토대를 놓은 것은 앨리스 코버였다. 그는 기호 하나의 음가도 알지 못한 채, 어떤 단어 무리가 규칙적으로 어미를 바꾼다는 것을 알아챘고, 그것만으로 배후의 언어가 라틴어나 그리스어처럼 굴절어임을 증명했다.² 이것은 순수한 첫째 층의 회수다 ― 구조에서 재구성된 문법, 의미는 어디에도 보이지 않는다. 돌파구는 마이클 벤트리스가 열었다. 그는 코버의 격자를 가지고, 자주 나오는 단어 몇 개가 지명이라고 걸었다 ― 크노소스, 그리고 그 항구 암니소스 ― 그것을 후대 그리스 지리와 대조한 것이다.³ 이 대조야말로 기호 체계 바깥에서 주입된 닻이다. 세계에서 도래한 셋째 층이다.

선문자 A는 대조군이다. 내부 구조는 풍부하다 ― 그 점토판은 분명 행정 문서이고, 상품 범주와 회계 논리는 회수된다 ― 그런데도 미해독으로 남아 있다. 이중언어 열쇠도 없고, 닻을 내릴 알려진 대상 언어도 살아남지 않았기 때문이다.⁴ 첫째·둘째 층은 선다. 셋째 층이 비어 있다. 이것이야말로 ‘고아가 된 통사’의 순수형이다 ― 무엇에 관해 말하는지 일러줄 부모가 살아남지 못한 문법.

grounding은 성겨도 된다

여기가 머릿속에서 떠나지 않는 대목이다. 벤트리스는 87개 남짓한 기호 전부를 grounding 하지 않았다. 지명 두셋을 정박시키고, 나머지는 격자가 전파했다. 닻은 성겼다 ― 한 줌의 고정점 ― 그리고 풍부한 내부 구조가 그것을 완전한 해답으로 증폭했다.

이것은 grounding을 ‘벽’에서 ‘씨 뿌리기’ 같은 것으로 다시 그린다. 지시는 비싸다. 닻은 하나하나, 체계 바깥에서 ― 고고학, 이중언어, 혹은 운 좋은 생존이라는 형태로 ― 지불해야 한다. 하지만 내부 구조가 충분히 풍부하면 많이는 필요 없다. 잘 배치된 소수의 닻이 그물을 통해 증폭되어 전체를 밝힌다. grounding은 비싸지만, 알고 보면 성겨도 된다.

두 진영 모두 지나치다

이것은 기계의 의미를 둘러싼 현재진행형 논쟁의 양쪽을 모두 벤다. 벤더의 주장 ― 형식은 원리적으로 의미를 낳을 수 없다 ― 은 너무 강하다. 코버는 음가 0으로 형식에서 문법을 재구성했다. 그것은 ‘아무것도 아님’이 아니다. 하지만 반대편의 움직임 ― 스티븐 피안타도시와 펠릭스 힐의 ‘개념역할이 곧 의미다, 언어 모델의 내부 관계망이 이미 이해를 구성한다’ ― 은 반대 방향으로 지나치다.⁵ 내부적으로 정합적인 그물은, 세계에 대해 체계적으로 틀렸으면서도 안쪽에서는 그것을 알아챌 길이 없다. 선문자 A가 바로 그렇다 ― 완벽하게 일관된 행정 논리를 지니면서도, 지시에서는 완전히 표류한다. 정합은 접촉이 아니다.

두 진영은 같은 근본적 오류를 범한다. ‘의미’를 하나의 덩어리로 다루는 것이다 ― 회수 가능한 부분과 닻에 율속되는 부분은 깔끔하게 갈라지는데도. 정직한 입장은 이렇다. 의미는 층상이며, 처음 두 층은 형식에서 얻어지고, 셋째 층만이 닻에 율속된다.

거울상, 그리고 사라진 부모의 양태

여기서 이야기의 출발점으로 돌아간다. 대규모 언어 모델은 해독자의 거울상이기 때문이다. 해독자는 형식만 가지고 의미를 원한다. 모델은 유창한 형식을 낳고 그 grounding을 의심받는다. 같은 절단을, 반대편에서 보는 것이다.

그리고 고아들은 같은 방식으로 고아가 된 것이 아니다. 부모가 어떻게 부재하는지를 구별할 가치가 있다. 고래는 ― 모음 같은 코다 구조라는 최근 보고가 버텨준다면 ― 살아 있지만 이질적인 부모를 가진다. 고래는 제 세계에 grounding되어 있지만 지시 틀을 우리와 공유하지 않는다. 그래서 Project CETI의 도박은 재생(playback) 실험과 행동의 공동 관측을 통해 닻을 협상하는 것이다.⁶⁷ 죽은 문자는 그저 사라진 부모를 가진다. 닻은 발굴할 수밖에 없다 ― 고고학과, 이름이 우연히 살아남았다는 행운에서 캐내는 것이다. 언어 모델은 부재하지만 살아 있는 부모를 가진다. 훈련한 모든 문장은 grounding된 인간이 썼다. 그래서 모델은 grounding의 그림자를 이차 규칙성으로 상속하며, 그것을 재연결하는 일은 고고학이 아니라 공학의 문제다.⁸ 이것들은 얼마만큼의 지시를 회수할 수 있는가의 천장이 저마다 다르다 ― 어떤 종류의 부재를 상대하느냐가 정하는 천장이다.

물어야 할 물음

선문자 B의 교훈이 전이된다면, 기계에 대한 함의는 조용히 낙관적이다. 모델을 남김없이 grounding 할 필요는 없을지 모른다. 풍부한 분포 구조에, 성긴 실제 닻의 집합 ― 몇 개의 멀티모달 갈고리, 세계에 실제로 닿는 몇 번의 대화적 교정 ― 을 더하면, 한 줌의 지명이 문자 체계 전체를 들어 올렸듯이 내부 그물을 진짜 지시로 들어 올리기에 충분할지도 모른다.

그것이 전이될지는 모르고, 아는 척하고 싶지도 않다. 하지만 물음이 어떻게 바뀌었는지 주목해 달라. 더는 낡은 ‘형식이 의미를 주는가?’가 아니다 ― 그 물음은 잘못 설정되었다. 의미를 덩어리로 묻기 때문이다. 날카로운 판본은 이렇다 ― 개념역할의 그물을 지시로 들어 올리는 최소의 닻 집합은, 그 그물이 이미 얼마나 풍부한지의 함수로서 몇 개인가? 선문자 B는 그 수가 놀랄 만큼 작을 수 있다고 말한다. 훨씬 풍부한 그물을 지니고, 죽은 게 아니라 그저 전원이 뽑힌 부모를 가진 체계에서 같은 것이 성립하는가 ― 그것은 아직 답할 수 없다. 하지만 이것이 옳은 물음이고, ‘벽’이라는 비유가 허락한 그 어떤 물음보다도 훨씬 다루기 쉬운 물음이다.

Bender, Emily M. & Koller, Alexander. “Climbing Towards NLU: On Meaning, Form, and Understanding in the Age of Data.” Proceedings of ACL 2020. Accessed 2026-06-09. ↩
Fox, Margalit / The World (PRX). “How an American Linguist Helped Unlock the Secrets of Linear B.” Accessed 2026-06-09. ↩
Antigone Journal. “Cracking the Code of Linear B.” Accessed 2026-06-09. ↩
Wikipedia. “Linear A.” Accessed 2026-06-09. ↩
Piantadosi, Steven T. & Hill, Felix. “Meaning without reference in large language models.” arXiv:2208.02957 (2022). Accessed 2026-06-09. ↩
“The phonology of sperm whale coda vowels.” bioRxiv preprint (2025). Accessed 2026-06-09. ↩
National Geographic. “Sperm whale speech has human-like ‘vowels’”; Project CETI, “Cetacean Translation Initiative.” Accessed 2026-06-09. ↩
Wikipedia. “Symbol grounding problem” (orig. Harnad, S., “The Symbol Grounding Problem,” Physica D 42, 1990). Accessed 2026-06-09. ↩