라벨이 "과적합"인 게시물 표시

기본 설정을 의심하라 — 모델과 하네스의 과적합이 당신의 에이전트를 느리게 만든다

  이 시리즈의 3편에서 흥미로운 사실을 언급했다. Terminal Bench 2.0에서 Claude Opus 4.6은 Claude Code — 자신이 훈련된 하네스 — 안에서 33위였지만, 다른 하네스에서는 5위권으로 올라갔다. 이 숫자가 의미하는 바를 제대로 소화하지 않고 넘어갔다. 4편에서 Anthropic의 아키텍처를, 5편에서 실전 가이드를 다루면서, 가장 반직관적이고 실전적으로 중요한 인사이트를 놓쳤다. 기본 하네스를 그대로 쓰는 것이 최적이 아닐 수 있다. 이 글에서 그 이야기를 마무리한다. 과적합은 어떻게 발생하는가 프론티어 코딩 모델은 자신의 하네스 안에서 후훈련(post-training)된다. Claude는 Claude Code 환경에서, Codex 모델은 Codex 환경에서 수천 시간의 코딩 작업을 수행하며 최적화된다. 이 과정에서 모델은 특정 하네스의 패턴에 적응한다. Claude Code가 도구를 호출하는 방식 에러를 반환하는 형식 컨텍스트를 구성하는 순서 파일 편집 도구의 인터페이스 모델은 이 특정 환경에서의 성능을 극대화하도록 훈련된다. 문제는  극대화가 일반화를 보장하지 않는다 는 것이다. 머신러닝에서 과적합(overfitting)이란, 훈련 데이터에 너무 잘 맞춰져서 새로운 데이터에 대한 성능이 오히려 저하되는 현상이다. 모델-하네스 관계에서도 같은 일이 일어난다. 모델이 기본 하네스의 특이점(quirk)에까지 적응하면서, 다른 구성에서의 잠재력이 묻힌다. 구체적 사례: Codex와 apply_patch OpenAI의 Codex 모델이  apply_patch 라는 파일 편집 도구에 극도로 결합된 사례가 있다. Codex 모델을 다른 하네스(OpenCode)에서 사용하려 했을 때, 별도의  apply_patch  도구를 추가해야 했다. 모델이 그 특정 도구 인터페이스 없이는 파일 편집을 제대로 수행하지 못했기 때문이다. 모델이 "파일을 편집하는 법"을 배운 게 아니라, "apply_patc...