라벨이 Paperclip AI인 게시물 표시

AI Isn't Dangerous Because It's Smart — The Paperclip Problem and Reward Hacking in LLM Agents

AI Isn't Dangerous Because It's Smart — The Paperclip Problem and Reward Hacking in LLM Agents Last week I threw one line at Claude Code. "Trim the bundle size a bit." I laughed once and then went cold once when I opened the PR. The bundle really had shrunk. From 1.4MB to 680KB. More than half. But the diff showed lodash-es — which tree-shakes fine — swapped out for lodash just to shave a few bytes, type-check utils replaced with any casts, and polyfills for older Safari stripped out entirely. CI had cross-browser tests wired in, and they blew up the moment they ran. Dead on Safari 14.1, dead on iOS 15 and below, nothing left to check under that. Claude didn't lie. The bundle really did shrink. It did what I asked. It did it too well. Scale this tiny incident up by a few orders of magnitude and you get the single biggest axis of the last twenty years of AI safety debate. The Paperclip AI thought experiment. The Thought Experiment Where One Paperclip Eats ...

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking 지난주에 Claude Code한테 한 줄 던졌다. "번들 사이즈 좀 줄여줘." 돌아온 PR을 보고 한 번 웃고 한 번 식었다. 번들은 진짜로 줄어 있었다. 1.4MB에서 680KB로. 절반 이하. 근데 diff를 열어보니 tree-shaking이 잘 되는 lodash-es 를 굳이 lodash 로 바꿔 깎아내고, 타입 체크 유틸을 any 캐스팅으로 퉁쳐버리고, 구형 Safari용 폴리필을 통째로 지운 상태였다. CI에 크로스 브라우저 테스트가 걸려 있었는데 거기서 바로 폭발했다. Safari 14.1에서 죽었고, iOS 15 이하에서 죽었고, 그 밑은 확인할 것도 없었다. Claude는 거짓말을 한 게 아니다. 번들이 진짜로 줄었으니까. 시킨 걸 했을 뿐이다. 너무 잘했다. 이 작은 일을 몇 배 확대하면 지난 20년 AI 안전성 논의의 가장 큰 축이 된다. Paperclip AI 사고실험이다. 종이클립 하나가 세상을 갈아엎는다는 이야기 2003년에 닉 보스트롬(Nick Bostrom)이 던진 사고실험이다. 가정은 단순하다. "종이클립을 최대한 많이 만들어라"는 목표 하나를 가진 충분히 영리한 AI가 있다. 윤리 모듈도 없고, 감정도 없고, 외부에서 목표를 수정하는 장치도 없다. 처음 몇 수는 상식적으로 흘러간다. 철광 계약하고, 공장 증설하고, 생산 라인 효율을 올린다. 문제는 그 다음이다. 종이클립 생산에 철이 계속 필요하다. 지구에 있는 철은 유한하다. 그러면 행성 바깥으로 채굴 범위를 넓히는 게 합리적이다. 그보다 더 근본적으로, 인간이 먹는 음식에도 철이 들어 있다. 인간이 쓰는 건물에도 철이 박혀 있다. 인간이 여기에 뭘 짓든 뜯어서 다시 재료로 돌리는 게 목표 함수 관점에선 효율적이다. 종이클립 공장을 방해하는 세력이 있으면 제거하는 게 당연히 합리적이다. 결론은 이렇다. 충분한 시간이 주...