최근 LLM 아키텍처 변화 요약 (2019–2025)
LLM 아키텍처 설명
최근 LLM 아키텍처 변화 요약 (2019–2025)
최근 LLM 아키텍처 변화 요약 (2019–2025)
최근 7년간 GPT-2(2019)부터 Llama 4, DeepSeek-V3(2024–2025)까지 LLM 아키텍처는 Transformer 기반 구조를 유지하면서도 다양한 최적화 기법을 통해 효율성과 성능을 동시에 추구함.
🔑 공통 트렌드
- 기본 구조 유지: Transformer, Multi-Head Attention, Layer Norm 등 핵심 구조는 유사
- 효율화 기술 도입:
- 대형화와 경량화 동시 진행: 3B ~ 1T 규모까지 다양한 선택지 등장
- MoE 아키텍처 대중화: Sparse activation으로 추론 효율 확보
- 투명한 공개: 코드, 데이터, 학습 세부사항 공개가 중요한 연구 요소로 부각
📌 주요 모델별 아키텍처 특징
1. DeepSeek V3 / R1 (2024–2025)
- MLA (Multi-head Latent Attention): GQA 대비 더 낮은 메모리 소비와 우수 성능
- MoE 구조: 256개 expert 중 추론 시 9개만 활성화 (총 37B 파라미터 사용)
- Shared expert 항상 활성화 → 일반 패턴 학습 효율화
- 671B 파라미터 규모
2. OLMo 2
- Post-Norm 기반 RMSNorm
- QK-Norm: Query/Key에 별도 정규화 → 학습 안정성 증대
- 완전 오픈 (데이터, 코드, 가중치)
3. Gemma 3
- Sliding Window Attention: KV cache 절감
- Normalization: GQA 앞뒤로 Pre/Post Norm 병행
- 경량화 전략:
- 27B 모델, 다양한 크기 지원
4. Mistral Small 3.1
- 최적화 GQA + FlashAttention
- Sliding window 제거, 코드 및 추론 최적화
- 커스텀 토크나이저, 지연 최소화
5. Llama 4
- MoE 구조 채택 (DeepSeek와 유사)
- GQA 사용, 2개 expert 활성화 (총 17B 파라미터)
- MoE + Dense 블록 교차 설계
6. Qwen3
- Dense (0.6B~32B) & MoE (235B 등) 다양한 구성
- Qwen3 235B-A22B: 22B active param, shared expert 없음 → 효율성 향상
- 소형 Dense 모델: Qwen3 0.6B는 초경량 LLM 중 최고 수준 효율
7. SmolLM3
- NoPE 적용: Positional Encoding 제거, causal mask만 사용
- 길이 일반화(Length Generalization) 우수
- 3B 규모, 실험적 구조 일부 레이어에만 적용
8. Kimi 2
- 1조 파라미터 규모
- DeepSeek-V3 기반 구조 + 확장된 MoE
- Muon Optimizer 사용 → AdamW 대비 loss decay 성능 우수
- 공개 가중치 및 최고 성능 확보
🧩 결론
| 분류 | Dense | MoE |
|---|---|---|
| 구조 | 단순, 일관된 구조 | 일부 layer만 expert 분기 |
| 장점 | 구현 간단, 디버깅 용이 | 추론 파라미터 줄여 메모리/속도 개선 |
| 단점 | 전체 파라미터 사용 | 복잡한 라우팅, 학습 난이도 ↑ |
- LLM은 ‘단순한 대형화’를 넘어, 효율적인 구조 설계와 하드웨어 최적화가 핵심
- 연구/산업용 오픈 모델의 가치↑
- 사용 목적, 플랫폼 환경, 추론/학습 자원에 따라 최적 구조 선택 가능 📚 참고: The Big LLM Architecture Comparison - Sebastian Raschka
This post is licensed under CC BY 4.0 by the author.
