2026-05-03: DeepSeek-V4, Gemini 3.1/3.5 Flash, Codex Pets (데스크탑 에이전트), 가성비 LLM 전략

2026. 5. 3.

📅 요약 개요

이번 채팅 로그의 핵심은 DeepSeek-V4의 압도적인 가성비와 기술적 성능, 그리고 Google Gemini의 예고 없는 모델 업데이트(Gemini 3.1/3.5 추정) 소식입니다. OpenAI는 ‘Codex Pets’라는 다소 실험적인 기능을 출시하며 사용자 경험(UX) 변화를 시도하고 있으며, 전반적으로 모델들의 ‘추론 성능’과 ‘비용 효율성’을 둘러싼 경쟁이 매우 치열하게 전개되고 있습니다. 1인 개발자에게는 DeepSeek와 같은 저비용 고성능 모델의 API 활용 전략이 가장 중요한 비즈니스 인사이트가 될 것입니다.

🔧 도구, 모델 & 기술 리소스

DeepSeek-V4-Flash & Pro:
- 공식 API: thinking 모드(reasoning_effort=high) 지원. 복잡한 요청 시 자동으로 성능을 높임.
- 비용 효율: 225개 테스트 케이스 벤치마크 수행 시 단 $1.20 소요. (Input Cache Hit 시 비용 대폭 절감)
- SGLang: DeepSeek-V4-Pro를 로컬에서 구동하기 위한 도구로 언급. VRAM 최적화 및 flashinfer_mxfp4 백엔드 활용.
Gemini 3.1 / 3.5 Flash (추정):
- LMSYS Arena(Code Arena)에서 비밀리에 테스트 중인 모델. 기존 Flash보다 훨씬 정교한 SVG 생성 능력과 코딩 능력을 보여줌. Google I/O(5월 14-20일) 전후 출시 예상.
Moondream3 (Photon Update):
- Mac 지원, 1초 미만의 지연시간으로 화면을 인식하고 제어할 수 있는 로컬 시각 모델(Vision Model).
Club-3090 (GitHub):
- RTX 3090/4090 1~2개로 Qwen3.6-27B 등 대형 모델을 최적으로 구동하기 위한 커뮤니티 레시피 공유.
Mercury 2 Diffusion:
- 추론과 확산(Diffusion) 모델을 결합하여 600~1000 TPS의 초고속 속도를 구현하는 소형 모델로 분류/도우미 역할에 적합.

💡 기법 & 모범 사례

MTP (Multi-Token Prediction) 활용:
- DeepSeek 모델 구동 시 MTP를 적용하면 지연시간(Latency)을 획기적으로 개선 가능 (단일 요청 당 80t/s에서 200-300t/s까지 향상).
Context Window 최적화:
- Reasoning(사고형) 모델 사용 시 컨텍스트 윈도우를 최소 384K 이상으로 설정해야 ‘사고 과정’이 중간에 잘리지 않음.
SVG 생성 프롬프트 기법:
- “Think hard and craft me an octopus in SVG format. Make sure you agree with your thinking before solving.”와 같이 모델의 사고 과정을 강제하는 프롬프트가 복잡한 그래픽 코드 생성에 효과적임.
Aider 벤치마크 설정:
- DeepSeek 등 외부 모델 사용 시 .aider.model.settings.yml 파일에서 extra_body 설정을 통해 thinking 모드를 활성화/비활성화하여 테스트 정밀도를 높일 것.

💼 비즈니스, 제품 & 시장 인사이트

가격 전쟁의 가속화:
- Grok 4.3이 Claude Sonnet 4.6 수준의 성능을 주장하며 공격적인 가격($1.25 in / $2.50 out)을 제시했으나, DeepSeek-V4-Flash($0.14 in / $0.28 out)에 비하면 여전히 비싸다는 평가.
모델 “Benchmaxxed” 주의보:
- 벤치마크 점수는 높으나 실제 코딩이나 실무에서 성능이 떨어지는 모델들(Grok 4.3 등)에 대한 사용자 불만이 있음. 실제 사용 환경에서의 테스트가 필수적.
OpenAI의 사용자 세분화:
- OpenAI가 브라우저 DevTools의 user_segments를 통해 사용자 유형을 비밀리에 분류하고 있다는 사실이 발견됨. 이는 향후 타겟팅된 기능 제공이나 과금 체계 변화의 전조일 수 있음.

⚠️ 주의사항, 이슈 & 피해야 할 것들

모델 “너프(Nerf)” 현상:
- GPT-5.5나 Claude Opus 4.7 등 플래그십 모델들이 트래픽 과부하 시 성능이 낮아지거나 응답 품질이 떨어지는 현상이 보고됨. 중요한 작업은 피크 시간대를 피하거나 다른 모델로 백업 전략을 세워야 함.
Codex Pets 리소스 낭비:
- 새로 출시된 ‘Hatch’ 스킬이나 펫 관련 기능들이 서브 에이전트와 이미지 생성 모델을 과도하게 호출하여 API 쿼터(Quota)를 순식간에 소진시킬 수 있음.
Gemini Web App의 한계:
- Gemini의 ‘컴퓨터 제어(Computer Use)’ 기능이 아직 미국 외 지역에서는 제대로 작동하지 않거나 브라우저 제어 능력이 떨어짐.

🔗 공유된 링크 & 리소스

[GitHub] club-3090: RTX 3090용 LLM 구동 레시피 (링크)
[GitHub] Janus (DeepSeek): 통합 멀티모달 이해 및 생성 모델 (링크)
[GitHub] waifu-sprites: Codex Pets용 애니메이션 스프레이트 오버레이 (링크)
[Benchmark] llm-stats.com: 실시간 LLM 가격 및 성능 비교 사이트 (링크)
[Tool] Codex Pet Share: 사용자들이 만든 Codex 펫 마켓플레이스 (링크)

📌 실행 가능한 핵심 사항

DeepSeek-V4-Flash API 도입 검토: 단순 로직이나 데이터 전처리, 대량의 텍스트 변환 작업 시 기존 GPT-4o나 Claude 대비 비용을 1/10 이하로 줄일 수 있음.
Google I/O(5월 중순) 모니터링: 현재 아레나에서 테스트 중인 Gemini 3.1/3.5 Flash 모델이 정식 출시되면 코딩 보조 도구로 강력한 대안이 될 수 있음.
로컬 Vision 에이전트 실험: Moondream3를 활용해 화면 인식 기반의 자동화 도구를 1인 개발 워크플로우에 통합해볼 것.
API 타임아웃 설정 확인: 대형 추론 모델(DeepSeek-V4-Pro 등) 사용 시 응답 시간이 20분 이상 소요될 수 있으므로, 클라이언트(LiteLLM 등)의 타임아웃 설정을 넉넉하게 조정할 것.