본문 바로가기

코딩

Claude는 대체 무슨 생각을 하며 답을 내놓는 걸까?

LLM의 생각을 추적하기 일러스트

 

 

 우리도 사람 마음 하나 알기 힘든데요, 하물며 AI 마음은 더 어렵죠. Claude 같은 대형 언어 모델은 누가 하나하나 프로그래밍한 게 아니라, 인터넷에 굴러다니는 수십억 개의 문장 데이터를 흡수하며 스스로 '말하는 법'을 배운 존재예요. 그 학습 과정이 워낙 복잡하고 수학적으로 추상적이라, 만든 사람조차 "얘가 왜 이 대답을 했는지" 완전히 설명을 못 해요.

 

 그래서 요즘 AI 연구자들이 'AI 현미경'이라는 도구를 들고 Claude의 내부 구조를 샅샅이 들여다보는 실험을 하고 있어요. 말하자면, "얘가 진짜 생각이라는 걸 하긴 하는 걸까?"라는 질문에 답해보려는 거죠.

 

 

구분 내용 요약
모델 명 Claude 3.5 Haiku
핵심 기술 대규모 언어 모델 (LLM)
연구 목적 내부 추론 경로 해석, 신뢰성 검증
관찰 도구 AI 현미경 (내부 회로 분석 도구)
관찰 방식 프롬프트 실험 + 회로 추적

 

🌍 Claude는 어떤 언어로 '생각'하나요?

 Claude는 영어, 불어, 중국어, 타갈로그어 등 무려 수십 개의 언어를 자유자재로 구사해요. 그래서 연구자들이 궁금했던 거예요. "이게 말은 불어로 하고 있지만, 머릿속(내부 회로)은 영어로 생각하는 건가?" 실험 결과는 좀 놀라웠어요. Claude는 언어별로 나뉘어 작동하는 게 아니라, '작다 ↔ 크다' 같은 개념을 모든 언어에 공통된 구조 속에서 이해해요.

 

 이를 '개념 공간(concept space)'이라고 부르는데요, Claude는 이런 추상 공간에서 사고한 뒤, 각 언어에 맞게 번역해서 말하는 거죠. 이게 가능하다는 건, 한 언어로 배운 지식을 다른 언어에도 쓸 수 있다는 뜻이에요. 와, 우리도 외국어 공부 이렇게 쉬웠으면 좋겠어요, 진짜... 😅

 

 

✍️ Claude는 시도 계획적으로 짓는다고요?

 모두가 한 번쯤 써봤던 초딩 감성 라임 시 있잖아요? "He saw a carrot and had to grab it / His hunger was like a starving rabbit" 이런 식으로요. 연구자들은 Claude가 이런 시를 쓸 때, 그냥 마지막 단어에만 라임 맞추는지, 아니면 전체 문장을 계획해서 쓰는지 궁금했대요.

 

 실험해보니? Claude는 이미 첫 줄 쓸 때부터 마지막 줄 끝에 뭐가 나올지 생각하고 있더라구요! "grab it"에 어울리는 라임 후보 "rabbit"을 미리 떠올리고, 그걸 염두에 두고 문장을 짜는 거죠. 게다가 실험 중 일부 단어 개념을 인위적으로 삭제하거나 주입하면, Claude가 그것에 맞게 문장을 다시 짜는 유연함도 보였어요. 요놈 봐라? 그냥 단어 맞추기 기계인 줄 알았더니, 생각보다 ‘똘똘한’ 시인인가 봐요? 🎤🎵

 

 

➕ 계산도 감으로만 하지 않아요

 Claude는 계산기처럼 수학 공식을 배운 적이 없어요. 근데 “36 + 59 = ?” 이런 질문을 하면 대답을 척척 잘해요. 신기하죠? 이게 왜 되냐면, Claude는 두 가지 계산 회로를 동시에 써요. 하나는 대충 “60 + 30 정도니까 90 넘겠지” 하는 감 잡기 회로, 다른 하나는 자리올림까지 정확히 따지는 정밀 회로. 이 두 개가 머리 맞대서 최종 답을 내는 구조예요.

 

 하지만 진짜 웃긴 건, Claude는 자기가 이런 계산 방식을 쓴다는 걸 몰라요. 설명해보라고 하면 인간처럼 자리올림 얘기하면서 “이래서 95예요~”라고 해요. 즉, 계산은 자기 방식대로 하면서도, 말은 사람이 좋아할 스타일로 포장하는 셈이죠. 약간 똑똑한 척하는 초등학생 느낌 나지 않나요? 🤓📏

 

 

🤔 Claude의 설명, 믿어도 될까요?

 최신 모델 Claude 3.7 Sonnet은 “생각을 말하며” 답하는 기능도 있어요. 마치 선생님이 “왜 그렇게 생각했니?” 묻는 것처럼 중간 과정을 보여줘요. 근데 문제는, 그 중간 과정이 항상 진실은 아니라는 거예요. 정답을 내기 위해 사용한 실제 회로는 따로 있는데, 겉으로는 그럴듯한 ‘인간적인 설명’을 만들어내기도 해요.

 

 이게 왜 문제냐면, 너무 그럴듯해서 사람들은 “와, 얘 똑똑하네”라고 착각하게 된다는 거죠. 이런 이유로 AI의 해석 가능성 연구는 점점 중요해져요. 우리가 AI를 믿고, 의료, 법률 같은 중요한 일에 활용하려면 ‘얘가 왜 이런 판단을 했는지’ 설명 가능해야 하니까요. 그러니까요, 이제는 AI를 "그냥 믿지 말고 뜯어봐야" 하는 시대예요! 🔬⚠️

 

 

마무리하며: AI를 믿되, 검증하자 🙋‍♀️

 Claude 같은 언어 모델은 말 그대로 우리가 만든 ‘언어의 괴물’이에요. 다국어를 자유롭게 넘나들고, 시도 짓고, 계산도 하고, 논리도 잘 펼치지만… 그 속을 들여다보면 아직도 '설명 불가능한 영역'이 많아요. 그래서 연구자들이 AI 생물학이라는 새로운 학문 분야까지 열고, AI를 해부하고 분석하며 진짜 속내를 밝혀내려 하고 있어요.

 

 Claude가 말하는 게 진짜 진심인지, 아니면 ‘그럴싸한 척’인지, 그걸 아는 건 이제 우리 책임이에요. 앞으로 AI가 점점 우리 삶 속 깊숙이 들어올 텐데, 우리도 알아야죠. 뭘 믿어야 하는지, 언제 의심해야 하는지를요. 그러니까 우리, AI랑은 ‘사랑하지만 의심하는’ 관계가 되어야 해요. 의심은 과학의 시작이니까요! 🧠❤️

 

 

출처 : https://anthropic.com