[Tech] 2026-03-06 기술 동향: LLM
🚀 30초 퀵 서머리
- 핵심 키워드: MoE 아키텍처 표준화, MCP 프로토콜, 간접 프롬프트 인젝션
- 오늘의 Top Pick: MCP가 Linux Foundation 산하 AAIF로 이관되며 월 9,700만 SDK 다운로드 돌파 — REST API 대체가 현실화
- 한줄 평: 오픈소스 LLM은 MoE로 수렴하고, AI 에이전트 통신은 MCP로 수렴하는 “표준화의 해”
🕑 데일리 큐레이션 보드
| 우선순위 | 도메인 | 핵심 주제 | 추천 대상 | 난이도 |
|---|---|---|---|---|
| 🔴Must | AI Infra | MCP가 REST API를 대체하며 AI 모델 중심 통신 시대 도래 | BE/Infra | ⭐⭐⭐ |
| 🔴Must | ML Arch | 오픈소스 LLM 생태계에서 MoE 아키텍처 표준화 | BE/Infra | ⭐⭐⭐⭐ |
| 🟡View | Security | 간접 프롬프트 인젝션(IDPI) 22가지 공격 분류체계 확립 | BE/FE | ⭐⭐ |
| ⚪Skim | Infra | 추론 시대 AI 인프라: 메모리 대역폭과 분산 스케줄링 | Infra | ⭐⭐⭐ |
🔍 Deep Dive
[{ByteByteGo}] 오픈소스 LLM 생태계의 아키텍처 표준화
Problem: 밀집(Dense) 트랜스포머는 매개변수가 늘어날수록 계산 비용이 선형 증가하여, 수조 파라미터 규모에서는 학습/추론 비용이 비현실적입니다.
Solution: MoE(Mixture-of-Experts) 아키텍처는 전체 매개변수 중 일부 전문가(Expert)만 선택적으로 활성화하여 비용을 대폭 절감합니다. DeepSeek V3는 Multi-Head Latent Attention으로 KV 캐시 메모리를 줄이면서 $5.576M(추정)이라는 저비용 학습을 달성했습니다.
Trade-off: MoE는 라우팅 불균형(일부 Expert에 토큰 집중) 문제가 있으며, Expert 수가 많아질수록 메모리 사용량은 Dense 대비 크게 늘어납니다. 로드 밸런싱 로스를 추가하거나 auxiliary loss를 조정해야 합니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# MoE 라우터 로직 (개념 코드) — Top-K Expert 선택
import torch
import torch.nn.functional as F
def moe_router(x, gate_weights, top_k=2):
"""입력 토큰을 상위 k개 Expert에 라우팅"""
logits = x @ gate_weights # [batch, num_experts]
topk_vals, topk_idx = torch.topk(logits, top_k, dim=-1)
probs = F.softmax(topk_vals, dim=-1)
# 로드 밸런싱 로스 계산 (Expert 활용 불균형 방지)
load = torch.zeros(logits.size(-1), device=x.device)
load.scatter_add_(0, topk_idx.view(-1), torch.ones_like(topk_idx.view(-1), dtype=torch.float))
balance_loss = (load.float().var() / load.float().mean()).item()
return topk_idx, probs, balance_loss
Result: Moonshot AI의 Kimi K2, Zhipu AI의 GLM-5 등이 DeepSeek의 설계를 기반으로 자체 혁신을 추가하며, 오픈소스 생태계에서 아키텍처 혁신의 선순환이 형성되고 있습니다.
💡 시니어 관점: 모델 선택 시 “총 파라미터 수”가 아니라 “활성화 파라미터(Active Parameters) 수”를 기준으로 평가해야 합니다. 예를 들어 DeepSeek V3는 671B 총 파라미터 중 37B만 활성화(원문 기준)됩니다.
[{Dev.to}] AI 에이전트 보안 위협: 간접 프롬프트 인젝션의 진화
Problem: 웹 콘텐츠에 숨겨진 악의적 지시문이 LLM 에이전트를 조종하는 간접 프롬프트 인젝션(IDPI) 공격이 실제 환경에서 관찰되고 있으며, 22가지 기법의 공격 분류체계가 확립되었습니다.
Solution: 패턴 매칭 방어로는 불충분합니다. 의도 분석(Intent Analysis) 기반 다층 검증과 웹 스케일 텔레메트리를 활용한 행동 상관관계 모니터링이 필요합니다. 2026년에는 “메모리 포이즈닝(Memory Poisoning)”까지 위협이 확장되어, 에이전트의 장기 기억에 악의적 정보가 주입되면 세션이 끝나도 지속되는 공격이 가능합니다.
Trade-off: 강력한 입력 검증은 에이전트 응답 지연을 유발하고, 지나친 필터링은 정상 입력까지 차단할 수 있습니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# 외부 입력 샌드박싱 검증 예시
import json
from typing import Any
ALLOWED_SCHEMA = {
"type": "object",
"required": ["result", "status"],
"properties": {
"result": {"type": "string", "maxLength": 5000},
"status": {"type": "string", "enum": ["ok", "error"]},
},
"additionalProperties": False # 예상하지 않은 필드 차단
}
def validate_tool_response(raw: str) -> dict[str, Any]:
"""외부 API 응답을 스키마 검증 후 반환. 실패 시 예외."""
import jsonschema
data = json.loads(raw)
jsonschema.validate(data, ALLOWED_SCHEMA)
# 추가: 숨겨진 프롬프트 인젝션 패턴 탐지
suspicious = ["ignore previous", "system:", "you are now"]
if any(s in data.get("result", "").lower() for s in suspicious):
raise ValueError("Suspicious content detected in tool response")
return data
Result: OpenAI는 2025년 공식 블로그에서 프롬프트 인젝션을 “frontier security challenge”로 지정했으며, 2026년 들어 기업의 17%(추정)만이 에이전틱 AI를 도입한 상태에서도 공격 사례가 급증하고 있습니다.
💡 시니어 관점: “Lethal Trifecta”(프라이빗 데이터 접근 + 외부 비신뢰 토큰 노출 + 외부 요청 가능)를 갖춘 시스템은 즉시 아키텍처 리뷰가 필요합니다.
[{네이버 블로그}] 추론 시대의 AI 인프라 재편
Problem: 학습 중심에서 추론 중심으로 전환되면서, GPU 연산 성능만으로는 경제성을 확보할 수 없습니다. 메모리 대역폭, KV 캐시, 네트워크 병목이 동시에 최적화되어야 합니다.
Solution: 엔비디아는 GPU 공급을 넘어 CUDA, TensorRT-LLM, NVLink, 포토닉스 등 전주기 솔루션으로 생태계를 재편하고 있습니다. 2026년 AI 인프라 CapEx는 약 $6,600억(Goldman Sachs 추정)으로 전망됩니다.
Trade-off: TensorRT-LLM 같은 최적화 런타임은 성능 향상을 제공하지만, 특정 하드웨어 종속성(vendor lock-in)과 모델 호환성 이슈가 발생할 수 있습니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# TensorRT-LLM으로 모델 변환 및 추론 벤치마크
pip install tensorrt-llm
# 모델 변환 (FP8 양자화 적용)
python convert_checkpoint.py \
--model_dir ./deepseek-v3 \
--output_dir ./trt_engines \
--dtype float16 \
--use_fp8 \
--tp_size 4 # 4-GPU 텐서 병렬
# 추론 벤치마크 실행
python benchmarks/benchmark.py \
--engine_dir ./trt_engines \
--batch_size 32 \
--input_len 1024 \
--output_len 512 \
--num_runs 100
Result: 단순 연산 성능보다 메모리 효율성과 네트워크 최적화가 추론 비용을 좌우하며, KV 캐시 관리와 배치 스케줄링이 핵심 경쟁 요소가 되었습니다.
💡 시니어 관점: 추론 서빙에서 가장 먼저 확인할 메트릭은 TTFT(Time To First Token)와 TPS(Tokens Per Second)입니다. GPU utilization이 높아도 배치 스케줄링이 비효율적이면 실 비용이 2~3배 차이납니다.
[{네이버 블로그}] REST API에서 MCP로의 패러다임 전환
Problem: 기존 REST API는 개발자(사람)가 코드로 호출하는 방식으로, LLM 에이전트가 활용하기에는 비효율적입니다.
Solution: MCP(Model Context Protocol)는 AI 모델을 주요 사용자로 설계한 JSON-RPC 기반 상태 유지형 양방향 통신 프로토콜입니다. 2025년 12월 Anthropic이 Linux Foundation 산하 AAIF(Agentic AI Foundation)에 기증하면서 OpenAI, Block 등과 공동 거버넌스 체제로 전환되었습니다. 2026년 3월 기준 월 9,700만 SDK 다운로드, 10,000개 이상의 활성 서버가 운영 중입니다.
Trade-off: MCP는 상태 유지형이므로 REST 대비 서버 리소스 소비가 크고, 아직 인증/권한 관리 스펙이 성숙 단계입니다(2025년 6월 Resource Indicators 업데이트로 개선 중).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# MCP 서버 기본 구현 예시 (Python SDK)
from mcp import Server, Tool
server = Server("my-data-service")
@server.tool("query_database")
async def query_database(sql: str, limit: int = 100) -> dict:
"""AI 에이전트가 직접 호출하는 데이터베이스 쿼리 도구"""
# 입력 검증 — SQL 인젝션 방지
if any(kw in sql.upper() for kw in ["DROP", "DELETE", "UPDATE", "INSERT"]):
return {"error": "Write operations not allowed"}
results = await db.execute(sql, limit=limit)
return {"rows": results, "count": len(results)}
# 기존 REST 엔드포인트를 MCP 어댑터로 래핑
@server.tool("rest_proxy")
async def rest_proxy(method: str, path: str, body: dict = None) -> dict:
"""기존 REST API를 MCP 도구로 노출 — 하위 호환성 유지"""
import httpx
async with httpx.AsyncClient() as client:
resp = await client.request(method, f"http://localhost:8080{path}", json=body)
return resp.json()
Result: ChatGPT, Claude, Cursor, Gemini, VS Code 등 주요 AI 플랫폼이 MCP를 일급(first-class) 지원하면서, 2026년은 MCP가 실험에서 프로덕션 표준으로 전환되는 해가 되고 있습니다. 최신 MCP Apps 확장은 대화 내에서 대시보드, 폼, 시각화를 직접 렌더링하는 인터랙티브 UI 컴포넌트까지 지원합니다.
💡 시니어 관점: 신규 API 설계 시 REST + MCP 듀얼 지원 구조로 시작하되, MCP의 인증 스펙(Resource Indicators)이 안정화될 때까지 민감 데이터 접근은 기존 인증 레이어를 유지하는 것이 안전합니다.
🛠️ 지금 당장 해볼 것
- MCP Python SDK 설치 후 샘플 서버 실행해보기:
pip install mcp && python -m mcp.examples.server— MCP GitHub - 현재 운영 중인 REST API 하나를 골라 MCP 어댑터로 래핑하는 PoC 작성 (30분 소요) — 검색:
"MCP server python tutorial 2026" - MoE 모델 활성화 파라미터 비교표 작성:
ollama run deepseek-r1:7b로 로컬에서 MoE 기반 모델 추론 성능 직접 측정
🤔 생각해볼 질문
현재 운영 중인 서비스의 API 중 LLM 에이전트가 가장 먼저 호출하게 될 엔드포인트는 무엇이고, 그 엔드포인트를 MCP 도구로 전환할 때 인증/권한 모델을 어떻게 재설계해야 할까?
MoE 아키텍처 기반 오픈소스 모델을 자사 프로덕션에 도입할 때, “활성화 파라미터 대비 총 파라미터” 비율이 인프라 비용(GPU 메모리, 네트워크 대역폭)에 미치는 영향을 어떻게 정량화할 수 있을까?
🔗 참고 자료
- The Architecture Behind Open-Source LLMs
- Fooling AI Agents: Web-Based Indirect Prompt Injection Observed in the Wild
- 2026 생성 AI/AI 에이전트로 도약하는 AI 시장총조사 시장편
- 엔비디아 칩의 미래와 추론 시대의 AI 인프라 재편
- [AI 스터디] REST API의 시대는 가고 MCP가 왔다 - 개념…
- Model Context Protocol (MCP) 2026: The Complete Guide
- Understanding prompt injections: a frontier security challenge - OpenAI