라벨이 로컬 비전 LLM인 게시물 표시

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 4. AI 로봇에 맞는 로컬 LLM 고르기, Qwen vs Llama vs Phi 비교

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 4. AI 로봇에 맞는 로컬 LLM 고르기, Qwen vs Llama vs Phi 비교 모델을 골라야 했다. 로봇에 로컬 LLM을 붙이려면 어떤 모델을 쓸지 결정해야 한다. 클라우드 API를 쓰면 이 고민이 없다. GPT-4o나 Claude를 그냥 쓰면 된다. 하지만 우리 프로젝트는 LAN 내에서 로컬 LLM 서버를 돌리는 구조다. 어떤 오픈소스 모델이 이 용도에 맞는지 직접 테스트해야 했다. 평가 기준을 먼저 정했다. 하나는 도구 사용(tool use) 이다. 로봇에게 "앞으로 가", "멈춰" 같은 명령을 구조화된 형태로 내리려면 모델이 JSON 함수 호출을 지원해야 한다. 자연어로 답하다가 갑자기 "move_forward()" 같은 텍스트를 섞어서 내놓으면 파싱이 어렵다. 다른 하나는 한국어 능력 이다. 아들이 한국어로 지시하고, 나도 한국어로 디버깅 메시지를 보고 싶다. 영어로만 작동하는 모델은 쓰기 불편하다. 마지막은 비전(vision) 이다. 지금 당장은 아니지만, 나중에 카메라 프레임을 입력으로 받아서 판단하는 기능이 필요하다. 비전을 지원하는 모델이면 나중에 교체 없이 확장이 된다. 이 세 기준으로 네 모델을 평가했다. Qwen2.5-7B-Instruct, Llama 3.1 8B Instruct, Phi-3.5 Mini Instruct, Gemma 2 9B Instruct. 도구 사용 테스트 같은 함수 정의를 줬다. { "name" : "robot_command" , "description" : "로봇에게 이동 명령을 내린다" , "parameters" : { "action" : { "type" : "string" , ...