최근 LLM 아키텍처 변화 요약 (2019–2025)

LLM 아키텍처 설명

Posted Jul 25, 2025 Updated Aug 5, 2025

By 김석현

4 min read

최근 7년간 GPT-2(2019)부터 Llama 4, DeepSeek-V3(2024–2025)까지 LLM 아키텍처는 Transformer 기반 구조를 유지하면서도 다양한 최적화 기법을 통해 효율성과 성능을 동시에 추구함.

🔑 공통 트렌드

기본 구조 유지: Transformer, Multi-Head Attention, Layer Norm 등 핵심 구조는 유사
효율화 기술 도입:
대형화와 경량화 동시 진행: 3B ~ 1T 규모까지 다양한 선택지 등장
MoE 아키텍처 대중화: Sparse activation으로 추론 효율 확보
투명한 공개: 코드, 데이터, 학습 세부사항 공개가 중요한 연구 요소로 부각
📌 주요 모델별 아키텍처 특징

1. DeepSeek V3 / R1 (2024–2025)

MLA (Multi-head Latent Attention): GQA 대비 더 낮은 메모리 소비와 우수 성능
MoE 구조: 256개 expert 중 추론 시 9개만 활성화 (총 37B 파라미터 사용)
Shared expert 항상 활성화 → 일반 패턴 학습 효율화
671B 파라미터 규모
2. OLMo 2
Post-Norm 기반 RMSNorm
QK-Norm: Query/Key에 별도 정규화 → 학습 안정성 증대
완전 오픈 (데이터, 코드, 가중치)
3. Gemma 3
Sliding Window Attention: KV cache 절감
Normalization: GQA 앞뒤로 Pre/Post Norm 병행
경량화 전략:
27B 모델, 다양한 크기 지원
4. Mistral Small 3.1
최적화 GQA + FlashAttention
Sliding window 제거, 코드 및 추론 최적화
커스텀 토크나이저, 지연 최소화
5. Llama 4
MoE 구조 채택 (DeepSeek와 유사)
GQA 사용, 2개 expert 활성화 (총 17B 파라미터)
MoE + Dense 블록 교차 설계
6. Qwen3
Dense (0.6B~32B) & MoE (235B 등) 다양한 구성
Qwen3 235B-A22B: 22B active param, shared expert 없음 → 효율성 향상
소형 Dense 모델: Qwen3 0.6B는 초경량 LLM 중 최고 수준 효율
7. SmolLM3
NoPE 적용: Positional Encoding 제거, causal mask만 사용
길이 일반화(Length Generalization) 우수
3B 규모, 실험적 구조 일부 레이어에만 적용
8. Kimi 2
1조 파라미터 규모
DeepSeek-V3 기반 구조 + 확장된 MoE
Muon Optimizer 사용 → AdamW 대비 loss decay 성능 우수
공개 가중치 및 최고 성능 확보
🧩 결론

분류	Dense	MoE
구조	단순, 일관된 구조	일부 layer만 expert 분기
장점	구현 간단, 디버깅 용이	추론 파라미터 줄여 메모리/속도 개선
단점	전체 파라미터 사용	복잡한 라우팅, 학습 난이도 ↑

LLM은 ‘단순한 대형화’를 넘어, 효율적인 구조 설계와 하드웨어 최적화가 핵심
연구/산업용 오픈 모델의 가치↑
사용 목적, 플랫폼 환경, 추론/학습 자원에 따라 최적 구조 선택 가능 📚 참고: The Big LLM Architecture Comparison - Sebastian Raschka

LLM

This post is licensed under CC BY 4.0 by the author.

최근 LLM 아키텍처 변화 요약 (2019–2025)

🔑 공통 트렌드

📌 주요 모델별 아키텍처 특징

1. DeepSeek V3 / R1 (2024–2025)

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

🧩 결론

Trending Tags