Google I/O 닷새 전, AI 전선이 세 갈래로 갈라졌다

M4 노트북 화면에 채팅 인터페이스와 'tok/s: 7', 'Qwen3.5 122B' 라벨, 새벽 책상 위 풍경

어떻게 하면 토큰 사용량을 줄일 수 있을까 고민을 하다 Qwen3.5 122B를 내 M4에 깔아봤다. 그리고 토큰이 한 자릿수로 떨어졌다…

의도한 대로 API 호출은 정말 0이 됐다. 그런데 챗 답변이 깜빡이며 한 글자씩 떨어지는 걸 보다가, 초당 토큰 수가 다른 자릿수도 한 자릿수로 떨어졌다는 걸 깨달았다.

같은 단어가 두 의미로 동시에 들렸다. 비용은 한 자릿수, 속도도 한 자릿수. 한쪽은 내가 원한 결과이고 다른 한쪽은 원치 않은 결과다. 그 사이에 줄임표 같은 침묵이 한 박자 끼었다.

이 모순이 글의 출발점이다.

내 노트북에서 일어난 한 자릿수 두 개의 어긋남은 회사 차원으로 가면 훨씬 커진다. 그리고 이 어긋남이 바로 AI 업계의 다음 전쟁터다. 1년 전만 해도 우리는 "누가 더 똑똑한 모델을 만드나"를 보고 있었다. 텍스트 이해와 추론 능력이 다음을 결정한다고 생각했다. 그런데 2026년 5월 현재, 그 경쟁은 사실상 끝났다. 새 전쟁터는 한 갈래가 아니다. 정확히 세 갈래로 갈라지고 있다.

클라우드, 디바이스, 폼팩터.

그리고 그 세 갈래가 동시에 갈라지는 진짜 동력이 있다. OpenAI는 매출 1달러당 2달러를 인퍼런스 비용으로 쓰고 있다. 2026년 한 해 손실 추정치만 14조 원에 가깝고, 현금 소진 기준으로 보면 23조 원 가까이 된다. 이 숫자가 글의 결론에서 다시 나온다. 일단 그 자리를 비워두자.

그중 디바이스 전선에서 가장 큰 모순이 자라고 있다. 내가 M4에서 본 한 자릿수 두 개의 어긋남이 바로 그 모순의 축소판이다. 닷새 뒤 Google I/O가 열린다. Google이 디바이스 전선에 어디까지 패를 깔지를 보면, 이 세 갈래 경쟁의 향방이 어느 정도 정해진다.

이 글은 그 다섯 일 앞에서 쓰는 정리다.

텍스트 추론 경쟁이 끝났다는 신호

먼저 한 가지 사실부터 짚고 가자. 2026년 5월 기준, Anthropic Claude Opus 4.7, OpenAI GPT-5.5, Google Gemini 3.1 Pro 셋이 거의 같은 벤치 줄 위에 있다.

SWE-bench Pro에서 Opus 4.7이 64.3%, OSWorld에서 78.0%로 에이전트 영역은 살짝 앞서지만, 텍스트 이해와 추론 벤치에서는 셋이 1~3% 안에서 출렁인다. 1M 토큰 컨텍스트는 다 풀렸다. Opus 4.7이 작년 12월에 풀고, GPT-5.5도 따라왔고, Gemini는 더 일찍 2M까지 갔다. 더 이상 "내가 더 긴 글을 읽을 수 있어요"가 차별화 포인트가 아니다.

이게 무슨 뜻인가. 1년 전 마케팅 패턴을 떠올려보자. "MMLU 92%", "HumanEval 96%", "수학 벤치 X% 향상". 매번 한 자릿수 점수 차이로 누가 일등이라며 슬라이드를 띄우던 그림이다. 그런데 그 그림이 지금은 안 통한다. 셋이 다 비슷한 줄에 있으니까. 일반 사용자 입장에서 "이 작업에선 Opus가 낫고 저 작업에선 GPT가 낫고" 정도의 차이만 남았다. 그것도 한두 달 안에 뒤집힌다.

회사들이 다른 데로 옮겨가고 있다. 옮겨가는 방향이 한 갈래가 아니라는 게 이 글의 첫 발견이다. 각 회사가 자기 약점과 자산을 보고 다른 베팅을 한다. 그 결과 세 전선이 동시에 갈라지는 모양이 된다.

클라우드 위에서, OpenAI는 분화하고 Anthropic은 한 우물을 판다

가장 가까이서 보이는 전선이다. 클라우드 API 위에서 일어나는 변화.

OpenAI가 2026년 5월 초에 푼 라인업을 한 번 정리해보자. GPT-5.5 Instant가 ChatGPT 기본 모델로 교체됐다. 그 위에 GPT-Realtime-2가 음성 대화 전용으로, GPT-Realtime-Translate가 70개 입력 언어에서 13개 출력 언어로 실시간 통역하는 전용 모델로, GPT-Realtime-Whisper가 스트리밍 음성 인식 전용으로 따로 나왔다. 그리고 GPT Images 2가 이미지 생성 플래그십으로 같이 풀렸다.

이 분화 자체가 신호다. 1년 전이었으면 OpenAI가 "Realtime 2.0"이라고 묶어서 한 모델로 냈을 것이다. 음성과 통역과 전사가 다 한 모델 안에 있는 그림. 그런데 지금은 셋으로 쪼개졌다. 왜 그랬을까. 이게 다음 섹션에서 다시 나올 23조원짜리 모순과 직결된다. 일단은 표면만 본다. 용도별로 모델을 분화하면 호출당 비용을 모델별로 따로 최적화할 수 있다. 음성 인식만 필요한 사용자가 추론 능력 있는 비싼 모델을 쓸 필요가 없어진다. OpenAI 입장에서 인퍼런스 비용을 호출 단위로 잘게 줄이려는 시도다.

반대편에 Anthropic이 있다. 같은 클라우드 전선인데 전혀 다른 베팅을 한다. Anthropic은 음성, 통역, 음성 인식 같은 라인업 분화를 거의 안 한다. 대신 한 우물을 판다. 코딩과 에이전트 실행력이다.

Anthropic이 자기 사이트에 공개한 Rakuten 사례를 보자. Claude Code를 7시간 동안 자율적으로 돌렸다. 사람이 중간에 개입 안 하고 코드 베이스 안에서 작업이 계속됐다. 그 7시간 동안 도구 호출이 수백 번 일어났고, 메모리 관리, 중간 검증, 자기 자신의 작업 결과 회고가 모델 안에서 일어났다. 이게 "긴 호라이즌 작업"이라고 부르는 영역이다. OSWorld에서 78% 찍은 게 그래서 의미가 있다. 사람이 마우스와 키보드로 데스크톱 조작하는 일을 모델이 직접 한다는 뜻이다.

OpenAI도 Workspace Agents를 풀었고 Agents SDK를 업데이트했으니 안 하는 건 아니다. 그런데 OpenAI는 그 위에 라인업 분화를 같이 한다. Anthropic은 분화를 거의 안 하고 한 우물에 집중한다. 같은 클라우드 전선이지만 베팅이 다르다.

이 차이가 왜 중요한가. 두 회사가 같은 문제(클라우드 추론 비용)를 다른 방식으로 풀고 있다는 신호다. OpenAI는 "호출 단위로 잘게 쪼개서 단가 낮추기", Anthropic은 "한 번 호출에 7시간 일하게 해서 호출당 가치 높이기". 둘 다 단가를 다르게 만지는 시도다. 어느 쪽이 답인지 아직 모른다. 다만 같은 클라우드 전선이라도 회사마다 다른 자세를 잡고 있다는 게 이번 섹션의 발견이다.

디바이스 위에서, 로컬 LLM과 OEM 온디바이스가 따로 도는 자리

여기가 글의 진짜 중심이다. 제일 길게 쓴다. 내가 M4에서 본 한 자릿수 두 개의 어긋남이 사실 이 전선의 축소판이다.

로컬 LLM이 벤치는 따라잡았다

먼저 사실부터 짚자. 오픈 웨이트 진영이 클로즈드 모델과 거의 같은 줄에 도달했다. 한두 점 차이로.

DeepSeek V4-Pro가 2026년 4월 24일에 풀렸다. SWE-bench Verified에서 80.6%, MIT 라이선스, 총 파라미터 1.6T에 활성 49B. Opus 4.6과 0.2점 차이다. 우리가 일반적으로 "프론티어 모델"이라고 부르는 그 줄에 들어와 있다.

알리바바 Qwen3.5는 122B MoE에 활성 10B다. 모델 카드에 따르면 GPT-5-mini를 대부분 벤치에서 이긴다. 그리고 M4 맥북 64GB에서 돌아간다. 이게 내가 직접 깔아본 모델이다. Meta Llama 4 Scout는 10M 컨텍스트를 오픈 웨이트로 풀었다. 클로즈드 모델 1M 컨텍스트의 10배다.

Ollama 라이브러리에 등록된 모델만 4,500개가 넘는다. 이 셋업이 사실상 표준이 됐다. 개발자가 ollama run qwen3.5:122b 한 줄 치면 자기 노트북에서 모델이 돈다.

여기까지만 보면 "오픈 진영이 이겼다"는 결론이 자연스럽다. 벤치 점수도 따라잡았고 라이선스도 자유롭다. 그런데.

그런데 써보면 외롭다

여기서 내 M4 경험이 진짜 의미를 갖는다. 벤치 점수는 80%인데 노트북에서 돌리는 토큰/초는 한 자릿수다. GPT-5.5 API가 보통 100 토큰/초 이상으로 답하는 것과 비교하면 10배에서 20배 차이다.

이게 한 가지 한계의 시작일 뿐이다. 실제로 깔아 쓰면서 마주친 다섯 가지가 있다.

추론 속도. M4 Max 64GB에서 Q4 양자화로 Qwen 122B를 돌리면 토큰/초가 6~8 정도다. 짧은 답이면 견딜 만한데, 코드 한 파일을 통째로 다시 써달라고 하면 2~3분 기다린다. 그동안 다른 일을 할 수도 있겠지만, 흐름이 끊긴다.

에이전트 통합. 단발 코딩 벤치에서 80%를 찍어도, 7시간 자율 작업 같은 긴 호라이즌은 다른 게임이다. 도구 호출 한 라운드 돌리면서 컨텍스트가 부패하는 속도가 클로즈드 모델보다 빠르다. Aider 같은 도구로 오픈 모델을 써본 사람들 평이 비슷하다. 5분짜리 작업은 되는데 한 시간짜리는 도중에 길을 잃는다.

NPU 미활용. M4에는 18 TOPS NPU가 박혀 있다. Apple Silicon의 자랑이다. 그런데 Ollama가 그 NPU를 거의 안 쓴다. CPU와 GPU만 사용한다. Apple이 Core ML을 통해서만 NPU 접근을 허용해서다. 칩에 박힌 가속기가 노는 상태로 LLM을 돌리는 그림이 된다. 차 트렁크에 두 번째 엔진을 싣고 다니면서 안 쓰는 셈이다.

배터리와 발열. 노트북에서 70B 모델을 한 시간 돌리면 팬이 풀로 돌고 배터리가 두 시간 안에 비워진다. 카페에서 책상에 노트북 펴고 쓰는 그림이 어울리지 않는다. 책상 위에서 충전기 꽂고 돌리는 데스크탑 워크플로다.

OS 통합 부재. "Hey Siri"처럼 백그라운드에서 항상 듣고 있는 어시스턴트가 되려면 OS가 손을 잡아줘야 한다. Ollama는 별도 앱이다. 시스템 레벨로 들어가 있지 않다. 그래서 내가 글을 쓰는 중에 "이 문장 좀 다듬어줘"라고 자연스럽게 묻는 흐름이 안 만들어진다. 항상 앱을 열고 프롬프트를 쳐야 한다.

이 다섯 가지를 종합하면 한 줄 결론이 나온다. 로컬 LLM은 외롭다. 똑똑한데 외롭다. 벤치 점수만 보면 클로즈드 모델 옆자리에 앉아 있어야 할 텐데, 실제로는 책상 한구석에서 혼자 돈다.

OEM 온디바이스가 답을 일부 들고 왔다

같은 디바이스 전선의 다른 갈래가 있다. OEM 온디바이스라고 부르자. Apple, Google, Samsung이 자기 칩에 모델을 박는 흐름이다.

Google이 푼 Gemini Nano 스펙을 보자. 1.8~3.25B 파라미터, 4-bit 양자화, 모델 크기 1GB 정도, 레이턴시 100ms 미만. Pixel 폰부터 시작해서 Galaxy까지 깔리고 있다. 이게 OEM 온디바이스의 표준 스펙이라고 봐도 된다.

그리고 2026년 1월에 폭탄이 떨어졌다. Apple이 자체 파운데이션 모델을 사실상 포기하고 Google Gemini 라이선스를 받았다. Apple Intelligence가 Gemini 기반으로 재구성되고, Apple은 그 Gemini를 자기 칩에 맞게 증류(distillation)해서 온디바이스로 돌리는 구조다. iOS 27에서는 사용자가 Gemini, Claude 등 외부 모델을 직접 선택할 수도 있게 된다.

이게 무슨 뜻인가. 세 가지가 동시에 일어났다는 의미다. Apple 같은 거대 기업이 자체 파운데이션 모델 만들기를 포기했다. 모델을 만드는 비용이 모델을 라이선스 받는 비용보다 크다는 판단이다. 그러면서 "온디바이스 AI"는 더 이상 차별화 축이 아니라 인프라가 됐다. 안 갖추면 죽는다. 동시에 모델은 위에서 큰 회사가 만들고, 칩에 박는 일은 다른 회사가 하는 분업이 굳어졌다.

Gemini 3.2 Flash가 2026년 5월 5일에 iOS Gemini 앱과 AI Studio에 조용히 떴다. 백만 입력 토큰당 0.25달러다. 닷새 뒤에 Google I/O가 있으니 공식 발표는 거기서 할 것이다. 이게 OEM 진영의 다음 표준 스펙이 된다.

두 갈래가 따로 도는 자리

자, 다시 정리하자. 로컬 LLM 진영은 벤치를 따라잡았는데 실사용은 외롭다. OEM 온디바이스 진영은 인프라화에 성공했는데 사용자가 모델을 통제할 수 없다. Gemini Nano를 내 폰에서 돌리는 건 좋은데, 그 모델을 내 입맛에 맞게 파인튜닝하거나 가중치를 바꿀 수는 없다. Google이 정해준 그대로 쓰는 그림이다.

두 갈래가 따로 도는 자리에 모순이 자란다. 사용자 통제(로컬 LLM의 강점)와 칩 최적화 OS 통합(OEM 온디바이스의 강점)이 한 자리에서 만나면 폭발할 텐데, 지금은 둘이 분리된 채로 돈다.

내 M4를 다시 보자. 칩 안에 NPU 18 TOPS가 박혀 있고, 그 위에 macOS가 있고, macOS 안에 Apple Intelligence가 들어 있다. 그런데 그 NPU에 내가 직접 고른 Qwen3.5나 DeepSeek V4-Pro를 올릴 수가 없다. Apple이 정해준 모델만 NPU를 쓰게 되어 있다. 내가 통제할 수 있는 영역은 Ollama가 도는 CPU/GPU 쪽이다. 사용자 통제와 칩 최적화가 한 디바이스 안에서 분리되어 있다.

이게 풀리는 순간이 진짜 폭발이다. 사용자가 NPU에 자기가 고른 오픈 웨이트 모델을 올릴 수 있게 되는 시점. 또는 OEM이 사용자 모델을 받아서 자기 칩에 맞게 증류해주는 표준이 생기는 시점. 그게 디바이스 전선의 다음 분기점이다.

당장은 그 분기점이 안 보인다. Apple은 자기 모델만, Google은 자기 Nano만 깐다. 오픈 진영은 NPU에 진입 못 한다. 로컬 LLM은 외롭게 도는 신기술로 머문다. 똑똑한데 외롭다.

스마트폰을 우회하려는 OpenAI×Jony Ive의 베팅

세 번째 전선은 다른 차원이다. 클라우드와 디바이스가 둘 다 "기존 폼팩터(웹, 폰, 노트북) 위에서 어떻게 AI를 더 잘 쓰나"를 다룬다면, 세 번째 전선은 "기존 폼팩터를 우회하는 새 디바이스를 만들 수 있나"다.

OpenAI가 Jony Ive와 손잡고 만드는 디바이스가 2026년 하반기 출시 예정이다. 코드명 Sweetpea. 화면이 거의 없는 목걸이 혹은 이어버드 형태. 2nm 칩과 환경 센서가 들어간다. 첫 해 출하 목표가 4,000만에서 5,000만 대다. 제조는 Foxconn이고, 베트남 또는 미국 조립.

이 베팅의 크기를 보자. 4,000만 대는 Apple Watch가 출시 첫 해에 한 1,200만 대 팔린 것의 3~4배다. 첫 해부터 매우 공격적인 출하 목표다. Sam Altman이 "스마트폰보다 평화로운 디바이스"라고 부른다. 알림이 쏟아지지 않고, 화면이 없고, 항상 듣고 있는 형태.

비유하자면 Humane의 AI Pin이 실패한 자리를 OpenAI가 다시 노리는 그림이다. Humane은 2024년에 출시했다가 1년도 안 되어 사실상 사업을 정리했다. 화면 없는 디바이스, 항상 듣는 AI, 비싼 가격이라는 같은 콘셉트인데 그때는 모델이 GPT-4도 못 되는 작은 거였고 가격이 700달러였다. 지금은 GPT-5.5 수준 모델이 들어가고, Jony Ive가 디자인하고, 가격대는 아직 안 공개됐지만 첫 해 5,000만 대를 노리는 만큼 보급형일 가능성이 높다.

이게 클라우드 적자와 어떻게 연결되나. 다음 섹션에서 답한다. 일단 폼팩터 전선의 의미만 짚자.

OpenAI가 이 베팅을 거는 이유는 두 가지다. 우선 스마트폰을 다른 회사(Apple, Google)가 통제하고 있다. iOS에서 Siri를 대체하거나 Android에서 Gemini를 대체하려면 OS 운영자 허가가 필요하다. iOS 27에서 외부 모델 선택이 가능해지긴 하지만, 어쨌든 Apple이 정한 룰 안에서다. OpenAI는 그 룰에서 벗어난 자기 디바이스가 필요하다.

그리고 디바이스 매출은 비교적 안정적이다. 클라우드 API 매출은 호출당이라 변동이 크고, 이미 본 것처럼 적자를 내고 있다. 디바이스는 한 번 팔면 한 대당 수익이 고정이다. 5,000만 대 × 한 대당 200달러 = 100억 달러. OpenAI 2026년 매출 예상치(130억 달러)의 거의 같은 수준이다.

폼팩터 전선의 진짜 의미는 "AI 디바이스의 정의를 새로 쓰자"라는 비전이 아니다. 그것도 있긴 하지만, 더 실용적으론 "스마트폰 OS 운영자가 통제하는 영역을 우회하고, 안정적 매출 라인을 확보하자"다. 가장 큰 베팅이면서 동시에 가장 큰 리스크다. Humane이 한 번 실패한 자리니까.

왜 지금 동시에 갈라지나, 23조원짜리 모순

여기서 도입에 비워둔 자리를 채우자.

OpenAI 내부 문서에 따르면 2026년 한 해 손실이 140억 달러로 추정된다. 원화로 19조 원. 그리고 현금 소진(cash burn) 기준으로 보면 250억 달러, 약 34조 원이다. 한국에서 흔히 보도되는 "OpenAI 23조원 적자"는 그 사이 어디쯤이다. 환율과 정의에 따라 숫자가 흔들리지만, 한 가지는 분명하다. 2026년에 천억 단위 손실이 난다.

이 돈이 어디로 가나. 매출은 130억 달러 정도다. 인퍼런스 비용만 2026년에 141억 달러로 잡혔다. 매출 전체보다 모델 돌리는 비용이 더 크다. Microsoft가 OpenAI 매출 분배 데이터를 누출했을 때 나온 숫자가 더 충격적이다. 인퍼런스 한 분야에서만 매출 1달러당 2달러 손실이다. R&D 비용, 직원 인건비, 마케팅 비용 다 빼고, 모델 한 번 돌리는 비용만으로 그렇다.

이걸 알고 나서 다시 위로 올라가 보자.

OpenAI가 GPT-Realtime-2를 음성, 통역, 음성 인식 셋으로 쪼갠 이유. 한 모델에 다 묶어두면 음성만 필요한 사용자도 추론 능력 있는 비싼 모델을 호출한다. 분화하면 음성 사용자가 음성 전용 모델만 호출한다. 한 호출당 비용을 줄이려는 시도다. 인퍼런스 단가 인하 압력의 결과다.

OpenAI가 Sweetpea라는 화면 없는 디바이스에 베팅하는 이유. 클라우드 API 매출은 적자고, 디바이스는 한 번 팔면 수익이 고정이다. 폼팩터 전선이 적자 동력에서 도망치는 가장 큰 출구다.

세 전선이 "갈라진다"고 말한 것은 좀 부정확하다. 세 전선이 동시에 적자라는 한 점에서 다른 방향으로 압력이 빠져나가는 것이다. 분화는 호출 단가 최적화, OEM 협력은 클라우드 의존 줄이기, 폼팩터(Sweetpea)는 안정 수익원. 같은 모순에서 세 갈래 출구다.

이게 OpenAI만의 그림이 아니다. 다른 회사들도 같은 압력을 받지만 다른 출구를 잡는다.

Anthropic은 OpenAI보다 매출이 작다(2026년 매출 예상 50~60억 달러). 그런데 적자 규모는 OpenAI의 4분의 1 정도다. 이유는 라인업 분화를 거의 안 하고, 코딩과 에이전트 한 우물을 파면서 호출당 가치를 높이기 때문이다. 7시간 자율 작업은 한 호출이 아니지만 한 세션이다. 그 한 세션에 사용자가 지불하는 가치가 크다. Anthropic은 같은 클라우드 전선에서 "단가 인하" 대신 "가치 인상"을 택했다.

Google은 또 다르다. 광고 수익이라는 거대한 본업이 있다. Gemini 운영 비용이 검색 광고 수익으로 분산된다. Google은 Gemini를 다른 회사에 라이선스하는 방식까지 갈 수 있다. Apple Foundation Models가 Gemini 기반인 것이 그 결과다. Google은 자기 모델을 다른 회사가 깔게 만들어서 클라우드 추론 비용을 줄이고, 동시에 다른 회사의 사용자 데이터에 닿는다. "AWS of AI" 포지션이라고 부를 수 있다.

세 회사가 같은 모순을 다른 방식으로 처리하는 그림이다. OpenAI는 분화와 디바이스로 도망친다. Anthropic은 가치 인상으로 버틴다. Google은 인프라화로 분산한다.

세 전선이 동시에 갈라지는 진짜 이유가 여기다. 위에서 "다음 전쟁터가 세 갈래로 갈라진다"고 말한 것은 23조원짜리 모순에서 각 회사가 자기 자산에 맞는 출구를 찾는 모양에 가깝다.

I/O 닷새 전, 내 예측

이제 Google I/O 이야기를 하자. 닷새 뒤 키노트에서 무엇이 나올까. 위에서 정리한 세 전선 그림으로 보면 예측이 좀 더 명확해진다.

Google이 가장 큰 패를 깔 자리는 디바이스 전선이다. 그것도 OEM 쪽 인프라화 가속.

근거가 셋이다. Gemini 3.2 Flash가 이미 5월 5일에 iOS Gemini 앱과 AI Studio에 떴다. 100만 토큰당 0.25달러. I/O에서 공식 발표하면서 추가 라인업(3.2 Pro 또는 상위 티어)이 같이 나올 것이다. 그리고 Google이 안드로이드 13~16 동안 차근차근 Gemini를 OS 운영 계층으로 만들어왔다. I/O에서 그 통합이 더 깊어진다는 발표가 거의 확정이다. CNBC 2026-05-12 기사가 그 흐름을 정리했다. 마지막으로 Apple Intelligence 재공개가 6월 WWDC에 있다. Google은 그 전에 안드로이드 진영의 그림을 먼저 보여줘야 한다.

I/O 키노트의 메시지는 이런 식으로 풀린다. "Gemini는 더 이상 챗봇이 아니라 안드로이드의 운영 계층이다. 폰에서, 차에서, 노트북에서, 웹 브라우저에서 같은 Gemini가 돈다. 그리고 그 Gemini 일부는 클라우드에서, 일부는 칩에 박혀서 온디바이스로 돈다." 우리 그림에서 "디바이스 전선의 OEM 쪽 가속"이다.

OpenAI는 어떻게 응수할까. I/O 직후 1~2주 안에 무엇이 나올 것이다. GPT-5.5 Pro 또는 Thinking 라인일 가능성, Sora 후속일 가능성, Agents SDK 큰 업데이트일 가능성. 패턴을 보면 OpenAI는 Google이 큰 키노트를 친 직후에 작은 공격을 여러 번 한다. 클라우드 전선의 분화 패턴이 그대로 응수에도 쓰인다.

Anthropic은 다르다. Anthropic은 큰 발표를 자주 안 한다. 2월 초에 claude-sonnet-5 식별자가 Vertex AI에 떴다가 사라졌다. Claude Sonnet 5는 거의 확정적으로 준비 중이다. Anthropic 패턴상 6월에서 7월 사이, 코딩과 에이전트 벤치 큰 점수와 함께 조용히 발표될 가능성이 높다. Opus 5는 그 뒤다. Opus 4.7에 1M 컨텍스트를 풀어둔 게 다음 단계 예고편이다.

이걸 다 종합하면 향후 한두 달 시나리오가 이렇게 그려진다.

다음 주 (5/19~20). Google I/O. Gemini 3.2 Flash 공식, 3.2 Pro 티저, Android OS 통합 가속, Astra 후속 데모. 디바이스 전선의 OEM 쪽이 메인 트랙.

5월 말에서 6월. OpenAI가 I/O 반응을 보고 GPT-5.5 변형 또는 Sora 후속으로 응수. 클라우드 전선의 분화 패턴이 그대로.

6월 초. Apple WWDC. Apple Intelligence 재구성된 모습 공개. Gemini 기반인지를 Apple이 어떻게 포장하는지가 관전 포인트.

6월 후반에서 7월. Anthropic Claude Sonnet 5 조용히 발표. 코딩과 에이전트 벤치 한 우물.

여름에서 9월. OpenAI Sweetpea 출시. 폼팩터 전선의 가장 큰 베팅 결과 확인. Anthropic Opus 5도 이 시점.

이게 닷새 뒤 키노트 직전에 내가 그려둘 수 있는 그림이다. 다음 글에서 실제 키노트가 이 가설을 어디까지 검증하는지 보겠다.

마치며

이 글은 시리즈 1편이다. 도입에서 말한 한 자릿수 두 개의 어긋남이 회사 차원으로 가면 어떤 모순이 되는지, 그게 다음 편의 주제다. 회사가 로컬 LLM을 들이려는 순간 무엇이 깨지는지, 그럼에도 누가 합리적으로 쓸 수 있는지를 다음 편(5/21 발행 예정)에서 더 깊이 파볼 생각이다.

3편은 I/O가 끝난 뒤다. 위에서 그린 그림이 어디까지 맞았는지 검증하고, 6~9월 다음 분기 전망을 다듬는 글로 마무리한다.

닷새 뒤에 다시 만나자. 그때까지 Google이 어디에 패를 깔지 같이 기다려보자.

댓글

이 블로그의 인기 게시물

개발자는 코드를 쓰는 사람이 아니다 — AI 시대에 남는 자리는 '책임'에 있다

Harness Engineering in Practice — How Anthropic Designs AI Agents

What Is Harness Engineering — Designing the Reins for AI Agents