Post

최근 LLM 아키텍처 변화 요약 (2019–2025)

LLM 아키텍처 설명

최근 LLM 아키텍처 변화 요약 (2019–2025)

최근 LLM 아키텍처 변화 요약 (2019–2025)

최근 7년간 GPT-2(2019)부터 Llama 4, DeepSeek-V3(2024–2025)까지 LLM 아키텍처는 Transformer 기반 구조를 유지하면서도 다양한 최적화 기법을 통해 효율성과 성능을 동시에 추구함.

🔑 공통 트렌드

  • 기본 구조 유지: Transformer, Multi-Head Attention, Layer Norm 등 핵심 구조는 유사
  • 효율화 기술 도입:
  • 대형화와 경량화 동시 진행: 3B ~ 1T 규모까지 다양한 선택지 등장
  • MoE 아키텍처 대중화: Sparse activation으로 추론 효율 확보
  • 투명한 공개: 코드, 데이터, 학습 세부사항 공개가 중요한 연구 요소로 부각

    📌 주요 모델별 아키텍처 특징

Image

1. DeepSeek V3 / R1 (2024–2025)

  • MLA (Multi-head Latent Attention): GQA 대비 더 낮은 메모리 소비와 우수 성능
  • MoE 구조: 256개 expert 중 추론 시 9개만 활성화 (총 37B 파라미터 사용)
  • Shared expert 항상 활성화 → 일반 패턴 학습 효율화
  • 671B 파라미터 규모

    2. OLMo 2

  • Post-Norm 기반 RMSNorm
  • QK-Norm: Query/Key에 별도 정규화 → 학습 안정성 증대
  • 완전 오픈 (데이터, 코드, 가중치)

    3. Gemma 3

  • Sliding Window Attention: KV cache 절감
  • Normalization: GQA 앞뒤로 Pre/Post Norm 병행
  • 경량화 전략:
  • 27B 모델, 다양한 크기 지원

    4. Mistral Small 3.1

  • 최적화 GQA + FlashAttention
  • Sliding window 제거, 코드 및 추론 최적화
  • 커스텀 토크나이저, 지연 최소화

    5. Llama 4

  • MoE 구조 채택 (DeepSeek와 유사)
  • GQA 사용, 2개 expert 활성화 (총 17B 파라미터)
  • MoE + Dense 블록 교차 설계

    6. Qwen3

  • Dense (0.6B~32B) & MoE (235B 등) 다양한 구성
  • Qwen3 235B-A22B: 22B active param, shared expert 없음 → 효율성 향상
  • 소형 Dense 모델: Qwen3 0.6B는 초경량 LLM 중 최고 수준 효율

    7. SmolLM3

  • NoPE 적용: Positional Encoding 제거, causal mask만 사용
  • 길이 일반화(Length Generalization) 우수
  • 3B 규모, 실험적 구조 일부 레이어에만 적용

    8. Kimi 2

  • 1조 파라미터 규모
  • DeepSeek-V3 기반 구조 + 확장된 MoE
  • Muon Optimizer 사용 → AdamW 대비 loss decay 성능 우수
  • 공개 가중치 및 최고 성능 확보

    🧩 결론

분류DenseMoE
구조단순, 일관된 구조일부 layer만 expert 분기
장점구현 간단, 디버깅 용이추론 파라미터 줄여 메모리/속도 개선
단점전체 파라미터 사용복잡한 라우팅, 학습 난이도 ↑
  • LLM은 ‘단순한 대형화’를 넘어, 효율적인 구조 설계와 하드웨어 최적화가 핵심
  • 연구/산업용 오픈 모델의 가치↑
  • 사용 목적, 플랫폼 환경, 추론/학습 자원에 따라 최적 구조 선택 가능 📚 참고: The Big LLM Architecture Comparison - Sebastian Raschka
This post is licensed under CC BY 4.0 by the author.