오늘은 Qwen 모델에 대해 공부를 하기 위해서 Qwen2 Technical Report를 읽고서 간단하게 요약하려고 한다. Qwen 모델에 대해 간단하게 알고 싶은 분들을 위해 작성한다.Paper 링크https://arxiv.org/pdf/2407.10671 Introduction여기서는 0.5B, 1.5B, 7B, 72B, 57B-A14B(MoE) 총 5개의 파라미터가 각각 다른 모델에 대해 소개하고 있다. 모델은 각각 7T 토큰의 데이터셋으로 훈련이 되었다. 토크나이저, 모델 구조, 데이터셋, 실험 등에 대해 상세하게 서술하고 있으며 MoE 모델에 대해서 매우 자세하게 얘기하고 있다. 0.5B와 1.5B는 스마트폰, 이어폰과 스마트 안경에 적합하고 그 외의 모델은 GPU에 적합하다고 말하고 있..