[Daily Bigtech] 2026-05-18 국내 빅테크 오늘의 글
📋 daily_pulse — 이번 주 핵심 정보
수집 기간: 2026-05-18 기준 최근 7일
🕑 Quick Glance
| 분류 | 주요 내용 | 중요도 |
|---|---|---|
| New | AI 에이전트를 실무에 맞게 설계하는 “하네스” 개념 등장 | ⭐⭐⭐ |
| Trend | LLM 추론 성능 최적화(비동기 배칭, 임베딩 모델 고도화) | ⭐⭐⭐ |
| Tip | 데이터베이스 성능 병목 진단 및 자동화 전략 | ⭐⭐ |
| Insight | 개발자 도구의 성능 기준이 “1초 이내”에서 “즉시”로 상향 | ⭐⭐ |
💡 Deep Dive
1. AI 에이전트는 “모델”이 아니라 “하네스”로 결정된다
핵심: 무신사의 query-engineer 사례에서 보듯, 범용 AI 모델(Claude 등)을 그대로 던지면 코드베이스 맥락이 없어 피상적 조언만 나온다. 대신 시스템 프롬프트, 역할 정의, 단계별 태스크 분해 같은 “하네스”를 설계하면 같은 모델도 전혀 다른 성능을 낸다. GitHub의 접근성 에이전트도 3,535개 PR을 68% 해결률로 자동 검토하는데, 이는 모델 자체보다 에이전트 아키텍처의 우수성을 증명한다.
공통 의견: LangChain의 “Agent = Model + Harness” 공식이 업계 표준으로 자리잡고 있다. 컨텍스트 부패(Context Rot) 현상을 막으려면 복잡한 태스크를 작은 단위로 분해하고, 각 단계마다 AI의 행동 공간을 좁혀야 한다.
실무 적용:
- 시스템 프롬프트에 구체적 역할 정의 추가 (“10년 경력의 Spring Boot 전문가” 같은 한 줄이 극적 효과)
- 슬로우 쿼리 분석처럼 반복되는 작업은 단일 AI 호출이 아닌 다단계 파이프라인으로 설계 (수집 → 분석 → 코드 생성 → PR 작성 → 리뷰 반영)
- 에이전트가 처리할 데이터 크기 제한 (10개 쿼리를 한 번에 vs 1개씩 순차 처리)
2. LLM 추론 성능의 새로운 경계: 비동기 배칭과 경량 임베딩
핵심: Hugging Face의 “Unlocking asynchronicity in continuous batching” 분석에 따르면, 동기식 배칭에서 CPU와 GPU가 번갈아 대기하면서 전체 런타임의 최대 25%가 낭비된다. 비동기 배칭으로 CPU 배치 준비와 GPU 연산을 병렬화하면 GPU 유휴 시간을 거의 0으로 줄일 수 있다. 동시에 IBM의 Granite Embedding Multilingual R2는 97M 파라미터로 모든 서브-100M 모델을 능가하는 성능을 달성해, 경량 모델도 품질 타협이 불필요함을 보여준다.
공통 의견: 2026년 추론 최적화의 핵심은 “모델 크기 줄이기”가 아니라 “인프라 효율성 높이기”다. H200 GPU 시간당 $5 비용에서 하루 사용 시 $120이 되는 상황에서, 배칭 전략과 캐싱 구조가 직접적인 비용 절감으로 이어진다.
실무 적용:
- 추론 서버 구축 시 동기식 배칭 대신 비동기 큐 기반 아키텍처 도입 (CPU 준비 중에도 GPU 계속 연산)
- 다국어 검색/RAG 시스템에서 311M 풀사이즈 모델 대신 97M 경량 모델 우선 검토 (32K 토큰 컨텍스트 지원)
- KV 캐시 관리와 IndexedDB 기반 클라이언트 캐싱으로 중복 요청 제거
3. 데이터베이스 성능 병목은 “쿼리 플랜”에 숨어 있다
핵심: Cloudflare의 ClickHouse 사례에서 I/O, 메모리, 스캔 행 수 모두 정상인데도 쿼리가 느린 이유는 쿼리 플랜 최적화 단계의 내부 경합(contention)이었다. 2PiB 규모의 Ready-Analytics 시스템에서 (namespace, indexID, timestamp) 복합 키 구조가 특정 네임스페이스 쿼리 시 불필요한 정렬 작업을 유발했고, 세 개의 패치로 해결했다. 무신사의 N+1 문제도 같은 맥락—표면적 지표는 정상이지만 실행 구조의 비효율이 진짜 원인.
공통 의견: 성능 최적화는 메트릭 기반 진단(CPU, 메모리)에서 벗어나 쿼리 실행 계획(EXPLAIN PLAN) 분석으로 전환해야 한다. 특히 대규모 데이터셋에서는 인덱스 전략과 파티셔닝 설계가 쿼리 최적화보다 우선.
실무 적용:
- CloudWatch Logs Insights 쿼리 분석 자동화 (AI 에이전트로 느린 쿼리 → 원인 → 코드 위치 추적)
- ClickHouse 사용 시 primary key 설계 단계에서 주요 쿼리 패턴 반영 (namespace별 최적 정렬 순서 사전 정의)
- 주간 슬로우 쿼리 리뷰를 자동화 파이프라인으로 전환 (수동 추적 → PR 자동 생성 → 리뷰 피드백 반영)
4. 개발자 도구의 성능 기준이 근본적으로 변했다
핵심: GitHub Issues 네비게이션 성능 개선 사례에서 “1초 이내 로드”는 더 이상 기준이 아니다. 로컬 IndexedDB 캐싱 + 서비스 워커 + 백그라운드 재검증으로 “즉시 렌더링”을 구현했고, 이것이 개발자 몰입도(flow state)를 유지하는 핵심이다. 작은 지연도 컨텍스트 스위칭을 유발하고, 누적되면 생산성 저하로 이어진다.
공통 의견: 2026년 개발자 도구는 “로컬 우선(local-first)” 아키텍처를 기본으로 한다. 네트워크 왕복을 최소화하고, 캐시된 데이터로 즉시 UI를 렌더링한 후 백그라운드에서 동기화하는 패턴이 표준.
실무 적용:
- 웹 앱 성능 측정 지표를 “Time to First Byte”에서 “Time to Interactive from Cache”로 변경
- 서비스 워커 + IndexedDB 조합으로 하드 새로고침 후에도 캐시 데이터 유지
- 프리페칭 전략으로 캐시 히트율 높이기 (사용자 행동 패턴 기반 사전 로드)
🛠️ 지금 당장 해볼 것
AI 에이전트 하네스 설계 시작 — 자신의 반복 작업(슬로우 쿼리 분석, 코드 리뷰 등)을 Claude/GPT에 던지기 전에 시스템 프롬프트 작성. 예:
site:github.com langchain agent harness검색 후 LangChain 공식 문서의 Agent 패턴 학습ClickHouse 또는 PostgreSQL 쿼리 플랜 분석 — 현재 운영 중인 DB에서 느린 쿼리 1개 선택 후
EXPLAIN ANALYZE실행. 메트릭(행 수, I/O)이 정상인데도 느리면 쿼리 플랜 최적화 필요. 예: PostgreSQL은EXPLAIN (ANALYZE, BUFFERS), ClickHouse는EXPLAIN PLAN명령어 사용IndexedDB + Service Worker 캐싱 프로토타입 — 자신의 웹 앱에서 자주 요청되는 API 1개 선택.
site:github.com service-worker-indexeddb-example검색 후 간단한 캐싱 레이어 구현. 또는 Workbox 라이브러리 설치:npm install workbox-windowGranite Embedding 모델 테스트 — 다국어 검색 또는 RAG 시스템 운영 중이면 Hugging Face에서
granite-embedding-97m-multilingual-r2다운로드 후 기존 모델과 성능 비교. 예:from transformers import AutoModel; model = AutoModel.from_pretrained("ibm-granite/granite-embedding-97m-multilingual-r2")
🔗 원본 출처 (클릭하여 원문 확인)
- AI 스페셜리스트와 자동사냥 — 하네스로 제어하는 AI 파이프라인
- Building a general-purpose accessibility agent—and what we learned in the process
- Raising the bar: Quality, shared responsibility, and the future of GitHub’s bug bounty program
- GitHub availability report: April 2026
- Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality
- From latency to instant: Modernizing GitHub Issues navigation performance
- Our billing pipeline was suddenly slow. The culprit was a hidden bottleneck in ClickHouse
- AI 시대, 성과 내는 조직일수록 토스식 TPM이 필요한 이유
- Unlocking asynchronicity in continuous batching
- Dungeons & Desktops: 10 roguelikes that never die (because their communities won’t let them)
- Browser Run: now running on Cloudflare Containers, it’s faster and more scalable
- GitHub Copilot individual plans: Introducing flex allotments in Pro and Pro+, and a new Max plan
- Dungeons & Desktops: Building a procedurally generated roguelike with GitHub Copilot CLI
- When “idle” isn’t idle: how a Linux kernel optimization became a QUIC bug