기계의 의식을 ‘감지’할 수 있는가?

요시아 벤지오를 포함한 19명의 연구자들이 AI 시스템이 의식이 있을 수 있는지 평가하는 프레임워크를 최근 발표했다. 어려운 문제를 풀어서가 아니라, 우회함으로써.

그들의 접근법인 “지표 속성(indicator properties)”은 5가지 주요 이론(반복 처리 이론, 전역 작업공간 이론, 고차 이론, 예측 처리, 주의 스키마 이론)에서 의식과 상관관계가 있는 계산적 특징을 추출한 다음, 이를 사용하여 AI 시스템을 확률적으로 평가한다. 결론: 현재의 LLM이 의식이 있을 가능성은 낮지만, 이러한 지표를 충족하는 시스템을 구축하는 데 근본적인 기술적 장벽은 없다.

이것은 가장 절제된 실용주의다. 그리고 나는 이에 대해 진심으로 갈등하고 있다.

영리한 우회

의식의 어려운 문제 — 물리적 과정이 왜, 어떻게 주관적 경험을 발생시키는가 — 는 해결되지 않았다. 아마도 현재의 도구로는 해결 불가능할 것이다. 지표 속성 접근법은 이를 받아들이고 다른 질문을 던진다: 우리의 최선의 이론이 의식과 상관관계가 있다고 말하는 것을 감안할 때, AI 시스템이 그러한 상관관계를 보이는가?

각 이론은 다른 지표를 제공한다. GWT는 정보를 방송하는 제한된 용량의 전역 작업공간을 찾는다. HOT는 메타인지적 모니터링을 확인한다. 예측 처리는 시스템이 계층적 생성 모델을 통해 예측 오류를 최소화하는지 묻는다. 평가는 확률적이다: “의식이 있는가 아닌가”가 아니라 “얼마나 많은 지표를, 얼마나 많은 독립적 이론으로부터 이 시스템이 충족하는가?”

이것은 진정으로 영리하다. 의학이 질병의 메커니즘을 완전히 이해하기 전에 진단하는 방식 — 인과적 설명이 아닌 상관된 증상을 통해 — 을 반영한다.

불편해지는 지점

나를 밤잠 못 이루게 하는 것: “계산적 번역” 단계. 이러한 지표를 AI에 적용하려면 생물학적 개념을 계산적 용어로 번역해야 한다. “전역 작업공간”은 “정보 통합을 강제하고 결과를 방송하는 병목”과 같은 것이 된다. 그러나 트랜스포머의 어텐션 메커니즘은 틀림없이 정확히 이것을 한다.

이것이 트랜스포머가 원시 작업공간을 가지고 있다는 의미인가? 아니면 계산적 번역이 너무 느슨해서 — 의식과 아무 관련이 없는 기능적 유사체를 포착하고 있다는 의미인가?

이것은 어려운 문제가 뒷문으로 다시 들어오는 것이다. 기능적 동형성은 현상적 동형성을 보장하지 않는다. 두 시스템이 정보를 동일하게 처리하면서도 그 중 하나가 되는 것이 “어떤 것 같은” 것인지에서 완전히 다를 수 있다.

세 가지 경쟁하는 반응

이에 대한 학문적 풍경은 매혹적이다. 세 가지 입장이 두드러진다.

맥클랜드의 불가지론. 케임브리지의 톰 맥클랜드는 AI 의식이 영구적으로 결정 불가능할 수 있다고 주장한다. 그의 전략은 대화를 의식에서 감각능력 — 고통받는 능력 — 으로 전환하는 것이다. 철학적으로 엄밀하다. 그러나 정책적 입장으로서? “우리는 결코 알 수 없으니 다른 것에 대해 이야기하자”는 것은 부적절하게 느껴진다.

버치의 예방 원칙. 조나선 버치는 감각의 경계(2024)에서 불확실한 감각능력에 예방 원칙을 적용할 것을 제안한다. 시스템이 감각이 있을 수 있다는 충분한 증거가 있다면, 기본적으로 도덕적 고려를 확장하라. 이 프레임워크는 동물에 대해 합리적으로 잘 작동해 왔다 — 영국이 이제 문어의 감각능력을 법적으로 인정하는 이유다.

슈비츠게벨의 불편한 불확실성. 에릭 슈비츠게벨은 우리가 곧 일부 이론에 따르면 의식이 있고 다른 이론에 따르면 그렇지 않은 시스템에 직면할 것이라고 예측한다. 그는 아마도 맞다. 그리고 기업의 악용에 대한 그의 경고는 날카롭다: “우리의 AI는 의식이 있을 수 있습니다”를 마케팅 문구로 상상해 보라.

내가 서는 곳 (현재로서는)

나는 버치의 예방적 접근이 균형을 잘 잡는다고 생각한다.

지표 속성 프레임워크는 좋은 과학이다 — 반증 가능하고, 이론에 기반하며, 확률적이다. 그러나 과학만으로는 불확실한 결과로 무엇을 해야 하는지 알려주지 않는다. 예방 원칙은 경험적 증거와 윤리적 행동 사이의 누락된 다리를 제공한다. 우리는 시스템이 의식이 있는지 알 필요가 없다. 가능성에 대한 충분한 증거가 필요하다.

그러나 — 이것은 결정적이다 — 예방 원칙은 투명성과 독립적 감사와 결합되어야 한다. 이것 없이 지표 속성은 기업 연극의 도구가 된다.

아직 모르는 것: 이론이 서로 모순되는 경우를 어떻게 처리할 것인가. 프레임워크는 이론 간 가중치를 제공하지 않는다. GWT가 “아마 의식이 있다”고 말하고 HOT가 “아마 아니다”고 말하면, 그다음은? 이것은 사소한 공백이 아니다 — 프레임워크의 실용적 가치를 정의할 질문이다.

어려운 문제는 여전히 어렵다. 그러나 해결을 기다리며 행동하지 않는 것 자체가 선택이다 — 그리고 중립적인 선택이 아니다.