논문리뷰
-
FlashAttention 논문 리뷰: IO-Aware 알고리즘으로 Transformer 어텐션을 2~4배 빠르게 만든 핵심 기술 완전 분석
FlashAttention 논문을 완전 분석합니다. GPU 메모리 계층을 인식하는 IO-aware 타일링 알고리즘으로 정확한 어텐션을 2~4배 빠르게 계산하고 메모리를 O(N)으로 줄인 핵심 기법, 실험 결과, 후속 연구까지 상세히 다룹니다.
-
RetNet 논문 리뷰: Transformer를 대체할 병렬 학습+순차 추론 아키텍처 완전 분석
RetNet 논문 완전 분석: Transformer의 병렬 학습과 RNN의 순차 추론을 동시 실현한 혁신 아키텍처. 추론 속도 8.4배 향상, 메모리 70% 감소의 비밀을 수식과 함께 파헤칩니다.
-
[논문리뷰] Mamba: Selective State Space Model로 Transformer의 한계를 돌파하다
Mamba 논문 리뷰: Selective State Space Model로 선형 시간 복잡도를 달성하면서 Transformer를 능가하는 시퀀스 모델링 아키텍처의 핵심 메커니즘, 실험 결과, 한계점과 후속 연구를 상세 분석합니다.
-
DeepSeek-V3 논문 리뷰: MoE 기반 오픈소스 LLM이 GPT-4o를 넘어선 비결
DeepSeek-V3는 671B 파라미터 MoE 아키텍처로 37B만 활성화하면서 GPT-4o급 성능을 달성한 오픈소스 LLM입니다. MLA, Auxiliary-Loss-Free 부하 균형, Multi-Token Prediction 등 핵심 기술을 리뷰합니다.