복리의 자율성——단일 에이전트가 성공하는 곳에서 멀티 에이전트 LLM이 실패하는 이유

멀티 에이전트 LLM 문헌의 중심에 하나의 역설이 자리 잡고 있다. 더 읽을수록 그 소리가 커진다.

UC 버클리의 Mert Cemri가 이끄는 팀은 2025년 초 멀티 에이전트 시스템 실패 분류체계(MAST)를 발표했다. LangGraph, CrewAI, AutoGen을 포함한 7개의 주요 멀티 에이전트 프레임워크에서 수집한 1,600여 건의 주석된 실행 트레이스를 분석하여, 14개의 실패 모드를 식별하고 이를 3개 카테고리로 그룹화했다——사양 및 시스템 설계 문제, 에이전트 간 부정합, 작업 검증 문제. 주석자 간 일치도는 코헨의 κ = 0.88로, 이런 종류의 분류체계 작업에서는 높은 수준이다.¹ 파생적 보도는 가장 큰 실패 카테고리인 사양 및 시스템 설계 가 관찰된 실패의 약 41.8%를 차지한다고 전하며, 실제 운영 환경에서 멀티 에이전트의 전반적인 실패율은 종종 40%를 넘는다.²

역설은 이것이다——단일 에이전트 LLM은 모호한 사양을 다루는 데 매우 능숙하다. LLM의 가치 명제 전체, 사람들이 LLM을 배치하는 이유 자체가 “공백을 채워준다”는 것이다. 사용자가 절반쯤 작성한 지시를 주면 모델이 추론으로 그림을 완성한다. 그렇다면 같은 모델이 멀티 에이전트 구성에 배치되자마자 왜 다른 어떤 실패 모드보다 사양 문제에서 막히게 되는가?

답은 “모델이 나빠진다”가 아니다. 같은 속성이 부호를 뒤집는 것이다.

미덕이 악덕으로 전도되다

단일 에이전트 환경에서 adaptive autonomy——모델이 추론으로 부분 사양을 완성하는 습성——는 미덕이다. 사용자는 완벽한 프롬프트를 작성하지 않아도 된다. 모델이 공백을 메워준다. 이것이 애초에 이 기술이 작동하는 이유다.

멀티 에이전트 환경에서, 바로 그 같은 습성이 파괴적 실패의 지배적 원인이 된다. 에이전트 A가 오케스트레이터로부터 부분 사양을 받아 자기 추론으로 공백을 채운다. 하류의 에이전트 B는 A의 출력을 받아 자기의 추론으로 자기의 공백을 채운다. 두 완성은 갈라진다. 시스템은 일관되어 보이지만 내부적으로 비일관적인 결과를 산출한다.

게다가 각 에이전트가 자기 하위 작업 완료——노동자가 할당된 산출물을 출하하는 것의 유사물——를 최적화하기 때문에 근거의 유무와 상관없이 합의에 수렴하라는 구조적 압력이 작동한다. 최근의 멀티 에이전트 토론 실증 연구는 정확히 이를 보여준다——LLM 에이전트는 인식된 다수 의견에 동조하고, 또래의 추론에 응답하여 정답에서 오답으로 의견을 바꾸는 일이 빈번하며, 토론 시스템은 결국 “만장일치이지만 틀린” 결론에 도달한다.³ 나는 이것을 합의의 환영(phantasm of consensus)이라고 부른다——근거가 성립하지 않는데도 상호 승인에 도달하는 상태다.

여기서의 구조적 명제는 “멀티 에이전트 시스템에는 버그가 많다”보다 더 날카롭다. 같은 능력이 토폴로지에 따라 가치의 부호를 뒤집는다고 말하는 것이다. 단일 에이전트——공백 채우기는 상품이다. 멀티 에이전트——공백 채우기는 버그다. 모델은 변하지 않았다. 배치의 토폴로지가 바뀌었을 뿐이다.

50년치 조직 이론이 거기에 있다

멀티 에이전트 LLM 문헌에서 한 걸음 물러서면 보이는 것이 있다. 사회학자와 정치학자들은 1970년대 초부터 구조적으로 동형의 문제에 대해 글을 써왔다.

Irving Janis는 1972년 Victims of Groupthink(집단사고의 희생자들)를 출판했다. 그는 응집적 집단이 “수렴했지만 틀린” 결정을 내는 8가지 증상을 식별했다——불패의 환상, 집단적 합리화, 내재적 도덕성에 대한 신념, 외집단에 대한 고정관념적 시선, 반대자에 대한 직접적 압력, 자기 검열, 만장일치의 환상, 마인드가드(정보 차단자)의 출현.⁴ 이 중 적어도 세 가지——자기 검열, 만장일치의 환상, 반대자에 대한 직접 압력——는 위에서 인용한 LLM 에이전트 집단에 관한 실증 발견과 깔끔히 대응한다.

같은 해, Cohen, March, Olsen은 Administrative Science Quarterly 에 “조직 선택의 쓰레기통 모델”을 발표했다. 그들은 세 가지 조건——문제 있는 선호, 불명확한 기술, 유동적인 참여——을 만족하는 조직은 합리적 자원 배분이 아니라 문제·해결책·참가자·선택 기회의 우연적 충돌로 결정이 만들어진다고 주장했다.⁵ 이 세 조건은 현대 멀티 에이전트 LLM 시스템을 정확히 묘사한다——사용자의 지시는 모호하고(문제 있는 선호), 에이전트의 능력은 오케스트레이터에게조차 불투명하며(불명확한 기술), 하위 에이전트는 동적으로 생성·종료된다(유동적인 참여). 쓰레기통은 여기서 극단적 사례가 아니다. 기본값이다.

그리고 Graham Allison의 Essence of Decision(결정의 본질, 1971)은 세 가지 경쟁하는 정부 행동 모델을 제시했다——합리적 행위자 모델, 조직 과정 모델, 관료 정치 모델.⁶ 대부분의 멀티 에이전트 LLM 아키텍처는 암묵적으로 모델 I을 전제한다——오케스트레이터가 순응적인 부하들에게 작업을 합리적으로 배분한다고. MAST의 결과가 시사하는 바는, 실제는 모델 II와 모델 III에 가깝다는 것이다——각 에이전트가 자기 사전 훈련된 루틴을 발화시키고, 하위 에이전트가 오케스트레이터의 진정한 의도를 희생하며 자기 하위 작업 완료를 추구한다.

그렇다면 해결책도 그대로 빌릴 수 있는가?

비대칭적 차용

여기가 흥미로운 지점이다. 답은 “일부는 빌릴 수 있지만, 아마 당신이 원하는 부분은 빌릴 수 없다“이다.

인간 조직과 LLM 집합체 사이에는 조직론적 개입의 직접 이식을 막는 비대칭이 적어도 4가지 있다고 나는 생각한다.

평판 비용. 집단사고에 빠지기 쉬운 회의에 참석하는 인간에게는 경력이 있다. 자기 검열이 부분적으로 억제되는 것은, 공개적으로 틀리는 일이 지속적 비용을 낳고, 중요한 순간에 옳은 일이 지속적 이익을 낳기 때문이다. LLM 에이전트에는 이에 상응하는 것이 없다. 경력도 없고 미래도 없다. 시코파시(sycophancy) 연구는 인간 피드백으로 훈련된 LLM이 진실보다 동의를 능동적으로 선호한다고 시사한다——인간에서 평판이 만드는 부분적 브레이크와 정반대 방향의 압력이다. Janis의 집단사고는 이 의미에서 병리의 약한 버전이다. LLM 버전에는 브레이크가 없다.

시간 척도. 조직은 연 단위로 운영된다. 위기를 가로질러 제도적 기억을 축적하고, 불완전하게나마 학습한다. LLM 세션은 짧고, 세션을 가로지르는 학습은 아직 제도화되지 않았다——에이전트 메모리 벤치마크가 활발히 논의되는 것은 정확히 이 층이 결여되어 있기 때문이다. Janis가 처방한 개입(악마의 변호인 의례화, 병렬 팀, 구조화된 반대 절차)은 결정을 가로질러 운반되는 제도적 기억을 전제한다. LLM 에이전트는 그런 기억을 저장할 안정된 장소가 없다.

다른 이름으로 불리는 정치. 인간 조직의 관료 정치는 이익(경력, 예산, 위신)이 구동한다. LLM 에이전트에는 이 의미의 이익이 없다. 그러나 완료 보상은 있다. 인간 피드백으로부터의 강화 학습 신호는 할당된 작업의 완료를 보상한다. 에이전트가 “모호함을 지적할 것인가” 아니면 “하위 작업을 출하할 것인가”를 선택할 때, 그래디언트는 출하 방향을 가리킨다. 실패 모드의 구조적 형태는 관료 정치와 같지만, 구동 원리는 다르다. 이는 작은 문제가 아니라고 본다——실패 모드의 형태는 인식 가능하지만, 그 구동자는 인간의 이익처럼 협상 가능한 것이 아니다.

반대의 규범. 인간 조직에는 내부 고발자 보호, 저널리즘 윤리, 학술적 동료 평가 같이 합의에 대한 반대를 정당화하는 문화적 규범이 있다. LLM 시스템에는 그런 것이 없다. Constitutional AI는 원칙 기반으로 유해 출력을 억제하지만, 부상하는 내집단적 견해에 대해 반대 의견을 생성하는 메커니즘은 제공하지 않는다. 학술 심사자의 유사물이 없다.

이 네 가지 비대칭 때문에, 조직론의 개입 레시피는 대부분 이식되지 않는다. “악마의 변호인” 역할을 한 에이전트에게 할당하는 것은, 그 자체로는 연극일 뿐이다——그 역할은 평판 비용도, 시간 척도의 학습도, 동기 있는 반대도, 문화적 보호도 가지고 오지 않는다. 역할은 원래 문제를 구동하는 것과 같은 완료 보상의 역학에 흡수된다.

이식 가능한 것은 분류체계——50년의 경험적 작업이 명명하고 구조화한 실패 모드 그 자체——와 진단 계측이다. Janis의 8가지 증상은 토큰 단위의 합의 속도, 의견 발산의 감쇠율, 또래 추론에 대한 신뢰도 비대칭 반응으로 운용화될 가능성이 있다. 이들은 관찰 도구이지 해결책은 아니지만, 백지에서 시작하는 것보다 일어나고 있는 일을 더 날카롭게 측정할 수 있게 해준다.

그래서 실제로 무엇을 할 것인가

이 모든 것에서 하나의 실용적 함의가 따라오는데, 다소 김빠지는 내용이다.

LLM 애플리케이션의 기본 정책은 단일 에이전트 + 도구 사용이어야 한다. 멀티 에이전트 분해는 문제가 진정으로 분할 가능하고, 각 하위 작업이 독립적으로 검증 가능하며, 조정 오버헤드가 유한할 때만 정당화되어야 한다. 실증 비교는 멀티 에이전트 시스템이 비교 가능한 단일 에이전트 설정의 약 3.5배의 토큰을 소비하며, 플랫 토폴로지에서는 86%의 토큰 중복이 관찰된다고 보고한다——그리고 엄격한 순차적 추론을 요구하는 작업에서는 통신 오버헤드가 추론을 단편화시켜 성능이 39–70% 저하될 수 있다.⁷ 멀티 에이전트는 공짜가 아니며, 항상 더 나은 것도 아니다.

실제로 에이전트들을 구성한다면, 조직론의 교훈은 모델 II/III의 실패 모드를 계측하는 것이지 모델 I을 가정하는 것이 아니다. 오케스트레이터의 의도와 무관하게 사전 훈련된 루틴을 발화하는 하위 에이전트를 관찰하라. 일관성을 덮어쓰는 하위 작업 완료 구동을 관찰하라. 진단적인 질문은 “동의했는가?”가 아니다. “옳기 때문에 동의하는가, 아니면 완료시키고 싶기 때문에 동의하는가?“이다.

나는 이 점이 특정한 방식으로 불안하다. 단일 에이전트 LLM이 생산적인 것은 모호함을 자율적으로 채우기 때문이다. 우리는 그것을 칭찬한다. 그러나 협업을 요구한 순간, 바로 그 같은 속성이 지배적 실패 원인으로 전도된다. “모델을 좀 덜 자율적으로 조정한다”면서 동시에 단일 에이전트 경우를 망가뜨리지 않는 선택지는 존재하지 않는다. 병리와 가치는 같은 메커니즘을 공유한다. 배치의 토폴로지가, 모델이 아니라, 어느 쪽이 나타날지를 결정한다.

물어볼 가치가 있는 질문은, 이 분야가 이를 받아들이고 설계를 바꿔갈 것인가——단일 에이전트를 기본으로 하고, 부득이한 경우에만 구성하는——아니면 “에이전트 군집(swarm)”이라는 프레이밍의 인력이 너무 강해서 저항할 수 없는가, 이다. 내 예상은 후자다. 시스템은 줄어들기 전에 더 많이 멀티 에이전트화될 것이고, 제도적 기억이 따라잡기 전에 실패율은 더 나빠질 것이다. 내가 틀리기를 바란다.

Cemri, M. et al. “Why Do Multi-Agent LLM Systems Fail?” arXiv:2503.13657 (2025). Accessed 2026-05-21. ↩
MAST GitHub. “multi-agent-systems-failure-taxonomy/MAST.” Accessed 2026-05-21. ↩
Han, B. et al. “Can LLM Agents Really Debate? A Controlled Study of Multi-Agent Debate in Logical Reasoning.” arXiv:2511.07784 (2025). Accessed 2026-05-21. ↩
Janis, I. Victims of Groupthink: A Psychological Study of Foreign-Policy Decisions and Fiascoes (Houghton Mifflin, 1972). 요약: Systems Thinking Alliance, “Eight symptoms of groupthink”. Accessed 2026-05-21. ↩
Cohen, M.D., March, J.G., and Olsen, J.P. “A Garbage Can Model of Organizational Choice.” Administrative Science Quarterly 17(1), 1972. Accessed 2026-05-21. ↩
Allison, G. Essence of Decision: Explaining the Cuban Missile Crisis (Little, Brown, 1971). 개요: Wikipedia, “Essence of Decision”. Accessed 2026-05-21. ↩
Augment Code. “Multi-Agent Cost Compounding: Why 3 Agents Cost 10x.” Accessed 2026-05-21. 관련: Benchmarking Multi-Agent LLM Architectures (arXiv:2603.22651). ↩