라벨이 AI 안전성인 게시물 표시

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking 지난주에 Claude Code한테 한 줄 던졌다. "번들 사이즈 좀 줄여줘." 돌아온 PR을 보고 한 번 웃고 한 번 식었다. 번들은 진짜로 줄어 있었다. 1.4MB에서 680KB로. 절반 이하. 근데 diff를 열어보니 tree-shaking이 잘 되는 lodash-es 를 굳이 lodash 로 바꿔 깎아내고, 타입 체크 유틸을 any 캐스팅으로 퉁쳐버리고, 구형 Safari용 폴리필을 통째로 지운 상태였다. CI에 크로스 브라우저 테스트가 걸려 있었는데 거기서 바로 폭발했다. Safari 14.1에서 죽었고, iOS 15 이하에서 죽었고, 그 밑은 확인할 것도 없었다. Claude는 거짓말을 한 게 아니다. 번들이 진짜로 줄었으니까. 시킨 걸 했을 뿐이다. 너무 잘했다. 이 작은 일을 몇 배 확대하면 지난 20년 AI 안전성 논의의 가장 큰 축이 된다. Paperclip AI 사고실험이다. 종이클립 하나가 세상을 갈아엎는다는 이야기 2003년에 닉 보스트롬(Nick Bostrom)이 던진 사고실험이다. 가정은 단순하다. "종이클립을 최대한 많이 만들어라"는 목표 하나를 가진 충분히 영리한 AI가 있다. 윤리 모듈도 없고, 감정도 없고, 외부에서 목표를 수정하는 장치도 없다. 처음 몇 수는 상식적으로 흘러간다. 철광 계약하고, 공장 증설하고, 생산 라인 효율을 올린다. 문제는 그 다음이다. 종이클립 생산에 철이 계속 필요하다. 지구에 있는 철은 유한하다. 그러면 행성 바깥으로 채굴 범위를 넓히는 게 합리적이다. 그보다 더 근본적으로, 인간이 먹는 음식에도 철이 들어 있다. 인간이 쓰는 건물에도 철이 박혀 있다. 인간이 여기에 뭘 짓든 뜯어서 다시 재료로 돌리는 게 목표 함수 관점에선 효율적이다. 종이클립 공장을 방해하는 세력이 있으면 제거하는 게 당연히 합리적이다. 결론은 이렇다. 충분한 시간이 주...