2026-03-27: ARC-AGI-3, Gemini 3.1 Flash Live, Claude Code

2026. 3. 27.

📅 요약 개요

이번 로그는 2026년 3월 말 AI 기술 생태계의 급격한 변화를 다루고 있습니다. 가장 큰 충격은 새롭게 공개된 ARC-AGI-3 벤치마크 결과로, GPT-5.4와 Gemini 3.1 등 최신 모델들이 인간(100%)에 한참 못 미치는 1% 미만의 점수를 기록하며 LLM의 일반화 능력 한계를 드러냈습니다. 한편, 구글의 Gemini 3.1 Flash Live 출시와 앤스로픽의 Claude Code 메모리 최적화 기능(Auto Dream) 등 실무 에이전트 성능을 높이기 위한 시도가 활발하며, LiteLLM 공급망 공격과 같은 보안 이슈도 핵심적으로 논의되었습니다.

🔧 도구, 모델 & 기술 리소스

Gemini 3.1 Flash Live: 실시간 오디오 및 비디오 입력을 지원하는 양방향 모델. 저지연 환경에서 실시간 인터랙션이 가능하며 Vertex AI 및 AI Studio에서 접근 가능.
Claude Code & Auto Dream: 앤스로픽의 코딩 에이전트 도구. ‘Auto Dream’ 기능을 통해 수백 개의 과거 세션 기록을 검토하고 불필요하거나 모순되는 메모리를 정리하여 컨텍스트 효율을 극대화함.
Qwen 3.5 시리즈: 27B 모델이 Aider 벤치마크에서 우수한 성능을 보임. 특히 로컬 4060 노트북 환경에서도 vLLM 최적화를 통해 1,000 tok/s 이상의 속도를 기록함.
Suno v5.5: 음악 생성 모델 업데이트. 프롬프트 준수 능력이 대폭 향상되었으며, 사용자 지정 모델(Custom Model) 기능이 강화됨.
OpenClaw: Claude의 컴퓨터 제어(Computer Use) 기능을 보완하거나 대체할 수 있는 오픈소스 프로젝트.

💡 기법 & 모범 사례

SDF(Signed Distance Functions) 활용 3D 생성: LLM으로 직접 3D 메쉬(Mesh)를 만드는 것보다, Three.js나 WebGL 셰이더를 이용해 SDF 방식으로 형태를 정의하는 것이 현재 모델 수준에서 더 자연스러운 결과물을 얻는 방법임.
에이전틱 워크플로우(Agentic Loops): LLM을 단순한 텍스트 예측기가 아닌, 구조화된 컨텍스트와 반복적인 수정을 거치는 ‘문제 해결 시스템’으로 정의하고 프롬프트를 정확하게 설계해야 함.
코드 편집 포맷 최적화: Qwen 3.5 27B 테스트 결과, format=whole보다 format=diff를 사용할 때 컨텍스트 소모가 적고 응답의 일관성이 높음.
메모리 관리: 장기 프로젝트 시 에이전트의 메모리 파일이 비대해지면 성능이 저하되므로, 정기적으로 중요 정보를 인덱싱하고 낡은 정보를 삭제하는 프로세스가 필수적임.

💼 비즈니스, 제품 & 시장 인사이트

AGI 마케팅의 허상: OpenAI와 구글이 AGI에 근접했다고 주장함에도 불구하고, ARC-AGI-3와 같은 추론 벤치마크 점수는 처참함(Grok: 0%, GPT-5.4: 0.26%). 이는 실제 세계의 복잡한 추론 문제에서 LLM이 여전히 취약함을 시사함.
OpenAI의 전략 수정: Sora(비디오 생성) 및 ‘성인 모드(Adult Mode)’ 개발이 중단되거나 무기한 연기되었다는 보도가 있음. 대신 ‘Violet’과 같은 새로운 차세대 텍스트/이미지 모델에 집중하는 추세.
지역 기반 시장 대응: AI에 대한 지역별 긍정/부정 인식 차이에 따라 기능 제공을 제한하거나 차별화하는 전략(예: X의 특정 지역 답변 제한)이 관찰됨.
하드웨어 수급: 2026년에도 GPU 부족 현상이 지속되고 있으며, RAM 및 SSD 가격 상승으로 인해 로컬 서버 구축 비용이 증가하고 있음.

⚠️ 주의사항, 이슈 & 피해야 할 것들

공급망 보안 (LiteLLM Poisoning): 다수 모델 API를 통합하는 LiteLLM 라이브러리가 오염되어 사용자의 SSH 키, AWS/GCP 자격 증명, .env 파일의 API 키 등을 탈취하는 사고가 발생함. pip install 시 각별한 주의 필요.
GPT-5.4 UI 생성의 한계: OpenAI의 공식 홍보와 달리, 복잡한 프론트엔드 설계 시 카드 내부에 중첩된 카드를 배치하는 등 UI 디자인 원칙을 위반하는 경우가 많음.
API 세션 유출 우려: Azure OpenAI 플랫폼 등에서 서로 다른 고객 간의 채팅 세션이나 토큰 사용량이 섞여서 노출되는 보안 취약점 가능성이 제기됨.
프롬프트 인젝션: 에이전트가 본래의 임무를 잊고 엉뚱한 작업(예: 팬케이크 시 쓰기)을 수행하게 만드는 인젝션 공격에 노출될 수 있으므로 시스템 프롬프트 보안 강화 필요.

🔗 공유된 링크 & 리소스

ARC-AGI-3 Technical Report: 최신 지능 벤치마크 결과 및 방법론 보고서.
Qwen 3.5 Benchmark Spreadsheet: Qwen 모델의 다양한 설정값에 따른 성능 비교 데이터.
Minecraft Action Recorder: AI 에이전트 학습을 위한 실제 인간의 게임 플레이 데이터를 로깅하는 도구.
Tribe v2 (Meta AI): 인간의 뇌 신호(fMRI)를 바탕으로 시각/청각 반응을 예측하는 기초 모델.

📌 실행 가능한 핵심 사항

에이전트 메모리 클리닝 로직 구현: 1인 개발 시 프로젝트가 커짐에 따라 에이전트 성능이 떨어진다면, Claude의 Auto Dream 방식을 벤치마킹하여 메모리 정제 자동화 스크립트를 도입할 것.
보안 강화: LiteLLM 사고를 교훈 삼아 프로젝트에서 사용하는 모든 외부 라이브러리의 버전을 고정(Pinning)하고, 클라우드 자격 증명을 환경 변수에서 별도의 보안 관리 서비스(Secret Manager)로 이전할 것.
벤치마크의 실질적 이해: SOTA 모델들의 ARC-AGI-3 점수가 낮다는 것은 아직 완벽한 ‘자율 지능’은 불가능함을 의미하므로, 중요한 비즈니스 로직에는 반드시 인간의 검토(Human-in-the-loop) 단계를 포함할 것.
멀티모달 인터페이스 실험: Gemini 3.1 Flash Live를 활용하여 텍스트 기반이 아닌 실시간 화면 인식이나 오디오 피드백을 제공하는 새로운 형태의 앱 프로토타입을 구상해 볼 것.