Logic meets intuition: 뉴로 심볼릭 AI가 그리는 미래
by Justin Kim
LLM은 틀린 답을 확신에 차서 내놓고, 학습 범위를 조금만 벗어나면 추론이 급격히 무너집니다. 이 문제를 계속 들여다보면서 내린 결론은, 지금의 뉴로 심볼릭(neuro-symbolic) AI에 확률과 메타인지가 빠져 있다는 것입니다.
뉴로 심볼릭 AI는 기호주의(규칙 기반 추론)와 연결주의(데이터 기반 학습)를 한 시스템에 엮으려는 시도입니다. 이 글에서는 그 결합이 왜 그것만으로 부족한지, 그리고 부족한 자리를 채우는 두 요소—확률과 메타인지—가 어떻게 서로 연결되는지를 다룹니다.
확률: 왜 논리에 숫자가 필요한가
“신경망이 이미지를 기호로 바꿔주고, 심볼릭 엔진이 추론한다”는 그림은 직관적입니다. 문제는 신경망이 내뱉는 기호에 이미 불확실성이 묻어 있다는 것입니다. “이 이미지는 고양이다”가 아니라 “고양이일 확률 0.82, 강아지일 확률 0.14”가 나오는데, 고전적 심볼릭 추론기는 이 연속적인 확신도를 받아들일 문법이 없습니다.
확률을 논리에 결합하는 시도 자체는 신경망과 무관하게 오래전부터 있었습니다. ProbLog1, Markov Logic Networks2, Probabilistic Soft Logic3 같은 확률적 논리 프로그래밍 전통이 그것입니다. 뉴로 심볼릭이 여기에 더한 것은, 신경망의 출력을 확률적 논리 프로그램의 사실(fact) 확률로 연결하고, 전체 시스템을 하나의 미분 가능한 계산 그래프로 구성하여 end-to-end로 학습시키는 구조입니다.
DeepProbLog4의 교과서 예제가 이 구조를 잘 보여줍니다. MNIST 손글씨 이미지 두 장을 입력으로 주되, 각 이미지가 어떤 숫자인지는 알려주지 않습니다. 대신 “두 숫자의 합이 8이다”라는 사실만 정답으로 줍니다. 신경망은 각 이미지가 0~9 중 무엇인지 확률 분포를 내놓고, 논리 프로그램은 덧셈 규칙에 따라 그 확률들을 조합해 “합이 8일 확률”을 계산합니다. 학습은 이 확률을 높이는 방향으로 신경망을 조정하는 것이 전부입니다.
흥미로운 점은, 각 이미지가 어떤 숫자인지에 대한 개별 라벨을 한 번도 준 적이 없는데도 숫자 인식기가 훈련된다는 것입니다. “합이 8”이라는 논리적 제약 조건만으로 신경망이 각 숫자를 구별하는 법을 배웁니다5. 이 예제에서 확률은 단순히 “얼마나 확실한가”를 표시하는 숫자가 아니라, 논리 규칙과 신경망이 서로의 학습을 돕는 통로 역할을 하고 있습니다.
메타인지: 확신도를 되먹임하기
확률이 들어오면 시스템은 “내가 이 결론에 대해 얼마나 확신하는가”라는 숫자를 갖게 됩니다. 그런데 그 숫자를 그냥 출력으로 내보내기만 한다면 절반만 쓴 것입니다. 그 확신도를 시스템 자신에게 되먹임해서 “이 예측의 확신도가 너무 낮으니 다른 전략을 써야 한다”거나 “이 입력은 내가 가진 규칙으로 커버되지 않는다”는 판단이 가능해질 때, 메타인지가 성립합니다.
AI 문헌에서 이 개념을 구체적으로 정리한 초기 연구로는 Cox(2005)6가 있습니다. Cox가 제안한 computational metacognition의 핵심은 object-level(실제 문제 풀이)과 meta-level(그 풀이 과정에 대한 명시적 모델)의 2-레이어 구조입니다. 시스템이 자기 추론의 trace를 명시적 표상으로 갖고, 실패가 감지되면 그 trace를 진단해 전략을 바꾸는 것이 핵심 메커니즘입니다78.
뉴로 심볼릭에서 이 2-레이어는 자연스럽게 대응됩니다. 신경망의 지각과 예측이 object-level, 심볼릭 층이 그 예측의 확신도와 규칙 커버리지를 점검하는 meta-level입니다. 요즘 LLM이 보여주는 “확신에 찬 환각”은, object-level은 강력한데 meta-level이 사실상 부재한 상태라고 볼 수 있습니다.
한편 심볼릭 쪽에서도 흥미로운 움직임이 있습니다. Scallop은 Datalog 기반의 추론 엔진인데, 추론 과정에서 확률을 전파하는 방식을 미분 가능하게 설계해서 신경망과 함께 gradient 학습이 가능하도록 만든 시스템입니다. Neural Datalog도 비슷한 방향으로, 기존 Datalog의 논리 추론 위에 확률 가중치를 얹어 신경망 출력과 연동시킵니다. “심볼릭은 학습이 안 된다”는 오래된 전제가 이런 시스템들을 통해 빠르게 무너지고 있습니다.
마치며
정리하면 이렇습니다. 뉴로 심볼릭에서 확률과 메타인지는 별개의 위시리스트 항목이 아니라 연결된 하나의 구조입니다. 확률이 확신도를 만들고, 그 확신도를 되먹임하면 메타인지가 됩니다. 이 고리가 없으면 시스템은 자기가 틀렸는지를 알 방법이 없고, 그것이 지금 LLM에서 반복적으로 보이는 환각의 구조적 원인이라고 생각합니다.
관련 글
-
De Raedt, L., Kimmig, A., & Toivonen, H. (2007). “ProbLog: A Probabilistic Prolog and Its Application in Link Discovery”. IJCAI. ↩
-
Richardson, M., & Domingos, P. (2006). “Markov Logic Networks”. Machine Learning, 62(1-2), 107–136. ↩
-
Kimmig, A., Bach, S., Broecheler, M., Huang, B., & Getoor, L. (2012). “A short introduction to Probabilistic Soft Logic”. NIPS Workshop on Probabilistic Programming. ↩
-
Manhaeve, R., et al. (2018). “DeepProbLog: Neural Probabilistic Logic Programming”. ↩
-
De Raedt, L., et al. (2020). “From Statistical Relational AI to Neuro-Symbolic Artificial Intelligence”. ↩
-
Cox, M. T. (2005). “Metacognition in computation: A selected research review”. Artificial Intelligence. ↩
-
Colelough, A., & Regli, W. C. (2024). “Neuro-Symbolic AI in 2024: A Systematic Review”. arXiv preprint arXiv:2405.10185. ↩
-
Hitzler, P., et al. (2022). “Neuro-symbolic artificial intelligence: The state of the art”. IOS Press. ↩
Subscribe via RSS
Comments