라벨이 M4 vs M4 Pro LLM인 게시물 표시

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 3. Mac M1 M4 M4 Pro로 로컬 LLM 속도 직접 비교했다

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 3. Mac M1 M4 M4 Pro로 로컬 LLM 속도 직접 비교했다 로컬 LLM을 처음 돌려본 날, Mac mini M1에서 Qwen2.5-7B를 올렸다가 토큰이 한 글자씩 찍히는 걸 보고 잠깐 멈췄다. 초당 8토큰 정도였다. 느리지는 않다. 근데 로봇 실시간 제어에 쓸 수 있는 속도인지는 다른 문제다. 로봇이 카메라 프레임을 보내고 LLM이 판단을 내려서 명령이 돌아오기까지 지연이 얼마나 되는지—그걸 실제로 측정해봐야 했다. 마침 집에 Mac이 세 대 있었다. Mac mini M1 16GB, Mac mini M4 24GB, MacBook Pro M4 Pro 14" 24GB. 같은 프롬프트, 같은 모델로 세 대를 비교해보기로 했다. 테스트 환경 모델은 Qwen2.5-7B-Instruct로 통일했다. Q4_K_M 양자화. mlx-lm과 llama.cpp Metal 백엔드 두 가지로 각각 측정했다. 측정 항목: - tok/s : 초당 생성 토큰 수 (generation speed) - TTFT : Time to First Token, 첫 토큰이 나오기까지 걸리는 시간 - 메모리 사용량 : 32K 컨텍스트 기준, 128K 컨텍스트 기준 - 발열 : 지속 부하 5분 후 CPU/GPU 온도 프롬프트는 세 종류를 썼다. 짧은 코드 생성(아두이노 50줄 수준), 중간 분석(센서 데이터 해석), 긴 문서 요약(ROS2 문서 일부). 각각 10회 측정해서 평균을 냈다. 결과: 숫자부터 기기 메모리 대역폭 tok/s (mlx) tok/s (llama.cpp) TTFT (32K) Mac mini M1 16GB 68.25 GB/s 31 28 1.2초 Mac mini M4 24GB 120 GB/s 58 52 0.7초 MacBook Pro M4 Pro 24GB 273 GB/s 112 98 0.4초 숫자만 보면 M4 P...