라벨이 비전 LLM 의사결정 로봇인 게시물 표시

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 8. 아들이 AI 로봇에게 첫 명령을 내렸다

아들과 함께 만들어보는 인공지능(LLM) 로봇 만들기 프로젝트 — EP 8. 아들이 AI 로봇에게 첫 명령을 내렸다 EP 6에서 LLM 서버와 연결했고, EP 7에서 Pi로 전환했다. 이번엔 카메라가 합류한다. Qwen2.5-VL-7B를 LLM 서버에 올렸다. 텍스트만 받던 모델 대신 이미지도 받을 수 있는 멀티모달 모델이다. 로봇 카메라에서 프레임을 캡처해서 "지금 뭐가 보여? 어디로 가야 해?"라고 물으면 모델이 이미지를 보고 판단을 내린다. 카메라 + 센서 + LLM + 로봇이 처음으로 한 번에 붙는 날이었다. Qwen2.5-VL 교체 텍스트 전용 Qwen2.5-7B에서 Qwen2.5-VL-7B로 교체했다. 같은 Qwen 계열이라 하네스는 거의 그대로였다. 바뀐 건 세 가지다. CLAUDE.md에 비전 입력 섹션 추가: ## 비전 입력 - 카메라 해상도: 640×480 - 전송 형식: JPEG (quality 70) - 프레임 전송: 명령 요청 시점에만 (연속 스트리밍 아님) - 이미지 + 센서 데이터를 함께 전달 ## LLM 입력 형식 (비전 모드) { "image": "<base64 encoded JPEG>", "sensor": "dist:45", "instruction": "사용자 명령" } 서버 래퍼 코드가 이미지 base64 인코딩을 받아서 llama.cpp에 multimodal 형식으로 전달하도록 수정했다. tok/s가 조금 떨어졌다. 텍스트 전용 112 tok/s에서 이미지 포함 시 78 tok/s로. TTFT도 늘었다. 이미지 인코딩 처리 시간 때문이다. 전체 응답 시간이 430ms에서 820ms로 늘었다. 0.8초. 느려졌지만 쓸 만하다. 첫 번째 시도 아들이 "주방 가서 물 가져와"라고 말했다. 실제로 입력한 건 이거였다. "...