라벨이 로컬 LLM 워크플로인 게시물 표시

M4 맥북에서 로컬 LLM으로 5일을 살아본 후

지난주에 Google I/O 닷새 전, AI 전선이 세 갈래로 갈라졌다 를 쓰면서 "로컬 LLM은 외롭다"는 한 줄을 마지막 자리에 박아두었다. 그 자리가 마음에 걸렸다. 한 시점 사진처럼 다섯 한계를 펼쳐놓고 끝낸 게, 너무 깔끔하게 정리한 결론처럼 보였다. 그래서 닷새 동안 직접 살아보기로 했다… 5월 11일 월요일 아침부터 5월 15일 금요일 저녁까지. 정확히 5일. 룰은 단순했다. 메인 워크플로를 로컬 LLM으로 돌린다. Anthropic API도, OpenAI API도 끄지는 않되, 손이 먼저 가는 자리를 의도적으로 Ollama 쪽으로 옮긴다. 도망갈 때마다 기록한다. 그리고 닷새가 끝나는 자리에서 무엇이 굳었고 무엇이 흩어졌는지 본다. 5일째 저녁, 두 가지가 동시에 일어났다. 평소 닷새 동안 $45 정도 나가던 API 청구서가 $14에 멈췄다. 그건 의도한 결과다. 그런데 매일 한두 번씩, 어떤 날은 세 번씩 클라우드로 도망갔다. 그 도망이 의지가 약해서 일어난 게 아니라는 점이 흥미로웠다. 매번 합리적인 이유가 있었고, 매번 같은 종류의 자리에서 일어났다. 그 도망의 패턴이 글의 진짜 발견이다. "로컬만 살기"는 단일한 룰이 아니라 사람마다 다른 분기였다. 이게 닷새 동안 일어난 일이다. 5일치 일지 긴 분석을 하기 전에 닷새가 어떻게 흘렀는지 시간순으로 적는다. 추상적 한계는 1편에서 다 펼쳤으니까. 여기는 화요일 오후 3시에 일어난 일, 목요일 새벽 1시에 일어난 일을 적는 자리다. 1일차 (월): 셋업과 첫 한 자릿수 월요일 아침에 셋업부터 다시 했다. 1편에서 깔아본 Qwen3.5 122B를 그대로 쓰되, 이번엔 의도적으로 Ollama 한 번, MLX-LM 한 번 두 가지 백엔드로 동일 모델을 돌려서 차이를 봤다. Ollama에서 qwen3.5:122b-a10b-q4_K_M 을 띄우니 짧은 답 6~8 토큰/초, 긴 답(2,000 토큰 이상 출력)이면 5~6 토큰/초. 첫 토큰 지연(TTF...