라벨이 “AI 기업 보안”인 게시물 표시

“AI에게 도메인을 이해시킨다 — 그 순간 기업 비밀은 어디로 가나”

AI가 도메인을 이해한다는 말에서 자연스럽게 따라오는 결론이 있다. “그러면 그 도메인을 아는 사람이 굳이 필요 없지 않나.” 기업 입장에서 이 논리는 꽤 매력적으로 들린다. 고액 연봉의 도메인 전문가를 유지하는 대신 AI를 쓰면 된다는 말이니까. 법률팀, 의료 자문, 금융 분석가, 20년 경력의 시니어 개발자 — AI가 그 지식을 흡수했다면 그 사람들의 자리가 흔들린다. 근데 이 논리엔 전제가 하나 빠져 있다. AI가 도메인을 이해하려면, 누군가 그 도메인을 AI에게 먹여야 한다. 그 먹이는 과정에서 무슨 일이 생기는지를 제대로 따져본 사람이 별로 없다. AI는 스스로 배우지 않는다 오해가 많은 부분이다. ChatGPT나 Claude 같은 모델이 법률을 안다, 의학을 안다, 금융을 안다 — 이건 사전 학습(pre-training) 단계에서 인터넷에 공개된 텍스트를 대규모로 학습한 결과다. 공개된 법률 문서, 의학 논문, 금융 보고서들이 학습 데이터에 들어가 있으니까 그 수준의 지식은 갖고 있다. 근데 회사 내부 도메인은 다르다. 키움증권의 반대매매 발동 기준이 인터넷에 공개돼 있지 않다. 특정 병원의 원무 처리 프로세스가 GitHub에 올라가 있지 않다. 어느 제조업체의 불량품 판정 기준이 논문으로 나온 적 없다. AI가 사전 학습으로 흡수할 수 있는 도메인은 공개된 것까지다. 각 조직이 수십 년 동안 쌓아온 내부 지식은 AI의 기본 장착 범위 밖이다. 그러니까 “AI에게 우리 도메인을 이해시키겠다”는 말은 반드시 이 작업을 수반한다. 내부 문서, 정책, 프로세스, 규칙을 AI에게 입력해야 한다. RAG(Retrieval-Augmented Generation) 파이프라인을 구축해서 내부 데이터를 검색 소스로 연결하거나, 파인튜닝을 통해 모델 자체에 조직 특화 지식을 녹여넣거나, 아니면 매 프롬프트마다 관련 내부 문서를 컨텍스트로 붙여서 보내거나. 어떤 방식이든 내부 정보가 외부 시스템을 거친다. 거기서부터 리스크가 시작된다. 삼성...