어텐션메커니즘
-
FlashAttention 논문 리뷰: IO-Aware 알고리즘으로 Transformer 어텐션을 2~4배 빠르게 만든 핵심 기술 완전 분석
FlashAttention 논문을 완전 분석합니다. GPU 메모리 계층을 인식하는 IO-aware 타일링 알고리즘으로 정확한 어텐션을 2~4배 빠르게 계산하고 메모리를 O(N)으로 줄인 핵심 기법, 실험 결과, 후속 연구까지 상세히 다룹니다.
-
RetNet 논문 리뷰: Transformer를 대체할 병렬 학습+순차 추론 아키텍처 완전 분석
RetNet 논문 완전 분석: Transformer의 병렬 학습과 RNN의 순차 추론을 동시 실현한 혁신 아키텍처. 추론 속도 8.4배 향상, 메모리 70% 감소의 비밀을 수식과 함께 파헤칩니다.