라벨이 로컬 LLM 회사 도입인 게시물 표시

로컬 LLM, 회사에 들여놓으면 정말 ROI가 나오나

1편을 쓰고 며칠이 지났을 때, 회사 GPU 워크스테이션 한 대에 같은 Qwen3.5 122B를 깔아봤다. 1편에서 내 M4 노트북이 한 자릿수로 떨어진 자리를 본 뒤, 자연스럽게 다음 질문이 따라왔다. 그러면 회사 차원은 어떨까. 노트북이 외롭다고 끝낸 그 자리가, GPU가 박힌 워크스테이션에서는 어떻게 보일까. 마침 사내에 시범으로 띄울 수 있는 NVIDIA RTX Pro 6000 Blackwell 96GB 한 대가 있었다. 같은 모델을 거기에 올려봤다. 속도는 5배에서 7배 빨라졌다. M4에서 6~8 토큰/초로 떨어졌던 게 워크스테이션에서는 35~50 토큰/초가 나왔다. 챗 답변이 한 글자씩 깜빡이며 떨어지는 그림이 사라지고, 문장이 통째로 흘러나오는 그림이 됐다. 1편에서 본 한 자릿수 두 개의 어긋남에서 한쪽(속도)이 풀린 것이다. 그리고 팀 5명을 거기 붙였다. 잠시 후 평균 응답이 다시 한 자릿수로 돌아왔다. 같은 단어가 다른 차원에서 또 등장했다. 1편에서는 내 노트북 한 대의 속도가 한 자릿수였고, 이번에는 회사 GPU 한 대를 다섯이 동시에 쓰는 큐가 한 자릿수를 만들었다. 큐가 쌓이는 자리에서 토큰/초가 다시 떨어졌다. 거기서 멈췄으면 "GPU 더 깔자"가 답이었을 텐데, 그 주에 회계팀에 보고서를 들고 갔다가 다른 한 자릿수를 마주쳤다. 시트당 단가를 분해해봤더니, 우리가 쓰던 클라우드 ZDR보다 비싸게 나왔다. 그리고 보안팀에서 "누가 어떤 코드를 어떤 모델에 넣었는지 로그가 있느냐"고 물어왔는데, Ollama에는 그런 로그가 기본으로 안 붙어 있었다. 회사 도입은 한 가지 답이 아니었다. 1편이 "외로움"이라 부른 자리가 회사로 가면 1편을 한 줄로 요약하면 이렇다. 로컬 LLM이 벤치는 따라잡았는데 노트북 위에서는 외롭다. 토큰/초가 한 자릿수다. 그리고 OS 통합도, NPU 활용도, 에이전트 통합도, 배터리도, 발열도 어느 것 하나 제대로 풀리지 않는다. 그 다섯...