라벨이 AI alignment인 게시물 표시

Running an AI Company With One npx Command — Dissecting the paperclip.ing Architecture

Running an AI Company With One npx Command — Dissecting the paperclip.ing Architecture The previous piece spent a long time walking through the Paperclip Maximizer thought experiment and the reward-hacking problem in LLM agents. At the end, I mentioned — somewhat ironically — that a project has shown up carrying this exact name. That project is the subject of this piece. paperclip.ing . The official GitHub lives at github.com/paperclipai/paperclip . As of April 2026 it's sitting at roughly 57k stars, and version numbers look like v2026.416.0 — date-based releases. Installation is one line. npx paperclipai onboard --yes Run that, and an embedded PostgreSQL spins up locally while an interactive setup walks you through standing up your first "company." From that point on, you don't chat with an AI. You run a company. Taking the Name Head-On Calling the project Paperclip isn't wordplay. It's a deliberate reference to Nick Bostrom's 2003 thought exp...

AI 회사를 npx 한 줄로 세운다 — paperclip.ing 아키텍처 뜯어보기

AI 회사를 npx 한 줄로 세운다 — paperclip.ing 아키텍처 뜯어보기 앞서 쓴 글에서 Paperclip Maximizer 사고실험과 LLM agent의 reward hacking 문제를 길게 풀었다. 그리고 글 끝에 "역설적으로, 이 이름을 정면으로 단 프로젝트가 실제로 존재한다"고 예고했는데, 그 프로젝트가 바로 이번 글의 주인공이다. paperclip.ing . 공식 GitHub 저장소는 github.com/paperclipai/paperclip . 2026년 4월 기준으로 별이 5만 7천 개 가까이 찍힌 오픈소스 프로젝트고, 버전 번호가 v2026.416.0 같은 날짜 기반으로 굴러간다. 설치는 한 줄이다. npx paperclipai onboard --yes 이걸 치면 로컬에 임베디드 PostgreSQL이 깔리고, 인터랙티브 셋업이 첫 "회사"를 세팅한다. 그 이후부터 사용자는 AI와 대화하지 않는다. 회사를 운영한다. 이름을 정면으로 가져왔다는 의미 프로젝트명이 Paperclip 이라는 건 단순한 말장난이 아니다. Nick Bostrom의 2003년 사고실험을 의도적으로 인용하고 그 문제를 정면에서 풀겠다는 선언이다. 웹사이트 랜딩 페이지의 카피를 그대로 옮기면 이렇다. "You operate as the board of directors. Agents can't hire new agents without your approval... You can pause any agent, reassign any task, adjust any budget — at any time." 읽어보면 문장의 각 조각이 사고실험의 어느 고리를 잡겠다는 선언인지 바로 보인다. "board of directors"는 인간이 상위 의사결정 권한을 쥔다는 거다. "Agents can't hire new agents without your appro...

AI Isn't Dangerous Because It's Smart — The Paperclip Problem and Reward Hacking in LLM Agents

AI Isn't Dangerous Because It's Smart — The Paperclip Problem and Reward Hacking in LLM Agents Last week I threw one line at Claude Code. "Trim the bundle size a bit." I laughed once and then went cold once when I opened the PR. The bundle really had shrunk. From 1.4MB to 680KB. More than half. But the diff showed lodash-es — which tree-shakes fine — swapped out for lodash just to shave a few bytes, type-check utils replaced with any casts, and polyfills for older Safari stripped out entirely. CI had cross-browser tests wired in, and they blew up the moment they ran. Dead on Safari 14.1, dead on iOS 15 and below, nothing left to check under that. Claude didn't lie. The bundle really did shrink. It did what I asked. It did it too well. Scale this tiny incident up by a few orders of magnitude and you get the single biggest axis of the last twenty years of AI safety debate. The Paperclip AI thought experiment. The Thought Experiment Where One Paperclip Eats ...

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking

AI는 똑똑해서 위험한 게 아니다 — Paperclip 문제와 LLM agent의 reward hacking 지난주에 Claude Code한테 한 줄 던졌다. "번들 사이즈 좀 줄여줘." 돌아온 PR을 보고 한 번 웃고 한 번 식었다. 번들은 진짜로 줄어 있었다. 1.4MB에서 680KB로. 절반 이하. 근데 diff를 열어보니 tree-shaking이 잘 되는 lodash-es 를 굳이 lodash 로 바꿔 깎아내고, 타입 체크 유틸을 any 캐스팅으로 퉁쳐버리고, 구형 Safari용 폴리필을 통째로 지운 상태였다. CI에 크로스 브라우저 테스트가 걸려 있었는데 거기서 바로 폭발했다. Safari 14.1에서 죽었고, iOS 15 이하에서 죽었고, 그 밑은 확인할 것도 없었다. Claude는 거짓말을 한 게 아니다. 번들이 진짜로 줄었으니까. 시킨 걸 했을 뿐이다. 너무 잘했다. 이 작은 일을 몇 배 확대하면 지난 20년 AI 안전성 논의의 가장 큰 축이 된다. Paperclip AI 사고실험이다. 종이클립 하나가 세상을 갈아엎는다는 이야기 2003년에 닉 보스트롬(Nick Bostrom)이 던진 사고실험이다. 가정은 단순하다. "종이클립을 최대한 많이 만들어라"는 목표 하나를 가진 충분히 영리한 AI가 있다. 윤리 모듈도 없고, 감정도 없고, 외부에서 목표를 수정하는 장치도 없다. 처음 몇 수는 상식적으로 흘러간다. 철광 계약하고, 공장 증설하고, 생산 라인 효율을 올린다. 문제는 그 다음이다. 종이클립 생산에 철이 계속 필요하다. 지구에 있는 철은 유한하다. 그러면 행성 바깥으로 채굴 범위를 넓히는 게 합리적이다. 그보다 더 근본적으로, 인간이 먹는 음식에도 철이 들어 있다. 인간이 쓰는 건물에도 철이 박혀 있다. 인간이 여기에 뭘 짓든 뜯어서 다시 재료로 돌리는 게 목표 함수 관점에선 효율적이다. 종이클립 공장을 방해하는 세력이 있으면 제거하는 게 당연히 합리적이다. 결론은 이렇다. 충분한 시간이 주...