2026-02-19: 클로드 4.6 소넷, 그록 4.20, 제미나이 3.1

2026. 2. 19.

📅 요약 개요

이번 대화의 핵심은 Claude 4.6 Sonnet의 기습 출시와 **Grok 4.20(베타)**에 대한 논란입니다. 개발자 커뮤니티는 클로드 4.6의 강력한 코딩 성능과 100만 토큰 컨텍스트 창에 열광하는 한편, 그록 4.20이 단순히 기존 모델 4개를 에이전트로 묶은 “눈속임”이라는 비판을 쏟아내고 있습니다. 또한 구글의 새로운 음악 모델인 Lyria 3 출시와 Gemini 3.1 Pro에 대한 유출 정보가 공유되었습니다.

🔧 도구, 모델 & 기술 리소스

Claude 4.6 Sonnet:
- 성능: SWE-bench Verified 79.6%~80.2% 기록. Opus 4.5를 능가하며 일부 코딩 작업에서 Opus 4.6과 대등함.
- 특징: 1M 토큰 컨텍스트 윈도우(베타), ‘적응형 사고(Adaptive Thinking)’ 모드 도입.
- 가격: 입력 $3/M, 출력 $15/M (4.5와 동일).
Grok 4.20 (Beta):
- 구조: 500B 파라미터 기반, 4개의 에이전트(Lucas, Harper, Benjamin, Grok)가 협업하는 구조.
- 평가: 검색 및 소스 수집 능력은 뛰어나나, 논리 및 SVG 생성 능력은 기대 이하라는 평이 지배적.
Qwen 3.5-397B-A17B: 알리바바의 새로운 오픈 가중치 모델. MoE 구조로 상위권 성능 기록.
GLM-5: 에이전트 엔지니어링에 최적화된 차세대 모델 기술 리포트 공개.
Lyria 3: 구글의 최신 음악 생성 모델. 텍스트, 이미지, 비디오를 30초 분량의 오디오로 변환.

💡 팁, 기법 & 모범 사례

Claude Code 활용: ~/.claude/settings.json에서 모델명을 claude-sonnet-4-6[1m]으로 설정하여 100만 컨텍스트를 활용 가능.
프롬프트 반복(Prompt Repetition): 최신 논문에 따르면, 추론 모델이 아닌 경우 프롬프트를 두 번 반복 입력하는 것만으로도 토큰 증가 없이 성능이 향상될 수 있음.
원샷 코딩(One-shot Coding): Claude 4.6은 에이전트 루프 없이도 한 번의 프롬프트로 6,000라인 이상의 복잡한 웹 앱(예: Web OS 시뮬레이터)을 생성할 수 있는 능력을 보여줌.
Aider 팁: /commit 명령 시 스테이징된 변경 사항만 반영하려면 특정 PR(aider #2763) 내용을 참고하거나 수동 관리가 필요함.

💼 비즈니스, 제품 & 시장 인사이트

자율 운영 기업(Polsia): AI가 스스로 기획, 코딩, 마케팅을 수행하며 수익을 창출하는 ‘Polsia’ 프로젝트가 화제. 현재 주당 수천 달러의 매출을 기록 중이라고 주장.
추론 공급 부족: 2028-2029년경 GPU 추론 용량이 수요의 10% 미만으로 떨어지는 극심한 AI 부족 사태가 발생할 것이라는 예측 제기.
중국 AI의 부상: Bytedance의 Seedance 2.0이 Sora를 위협하는 SOTA 비디오 모델로 평가받으며, 향후 검열 없는 중국/오픈소스 모델이 시장을 주도할 가능성 언급.

⚠️ 주의사항, 이슈 & 피해야 할 것들

Cline 보안 경고: Cline CLI의 npm 게시 토큰이 탈취되어 cline@2.3.0 버전에 악성 코드가 포함되었을 가능성이 있으므로 즉시 확인 및 업데이트 필요.
OpenClaw 단속: Anthropic이 OpenClaw 등 비공식 프록시를 통한 OAuth 인증 사용을 차단하기 시작함.
Grok 4.20의 한계: 4개의 에이전트가 작업을 중복 수행하거나 서로의 결과물을 “그냥 코드 같네”라고 방관하는 등 효율성 문제가 보고됨.
Gemini 3 편향성: 제미나이 모델이 자가 평가(Judge) 시 자신의 답변에 강한 편향을 보이는 경향이 있어 평가 모델로는 부적합할 수 있음.

🔗 공유된 링크 & 리소스

모델 소식: Anthropic Claude 4.6 출시 공지
논문: 프롬프트 반복 성능 향상 연구 (arXiv:2512.14982), GLM-5 기술 리포트
보안: Cline npm 보안 권고
실시간 프로젝트: Polsia 자율 AI 라이브
벤치마크: Vals AI 인덱스 (Claude 4.6 1위)

📌 실행 가능한 핵심 사항

메인 모델 교체 검토: 가성비와 성능을 고려할 때, 코딩 및 에이전트 작업용 메인 모델을 Claude 4.6 Sonnet으로 전환할 것.
보안 점검: Cline 사용자라면 즉시 버전을 확인하고 보안 권고에 따라 조치할 것.
컨텍스트 전략 수정: Claude의 1M 토큰 지원으로 인해 대규모 코드베이스 전체를 컨텍스트에 넣고 작업하는 ‘Long-context’ 워크플로우를 적극 도입할 것.
구글 Lyria 3 테스트: 마케팅용 짧은 BGM이나 효과음 생성이 필요한 경우 Gemini 앱 내 Lyria 기능을 테스트해 볼 가치가 있음.