Paper/Model 3

[Paper Review] CURE: Context- and Uncertainty-Aware Mental Disorder Detection

논문링크https://aclanthology.org/2024.emnlp-main.994/Introduction시간적, 공간적 제약 없이 온라인에서 정신 건강 전문가와 유사한 경험을 공유하는 많은 동료들과 개인을 연결하는 소셜 미디어는 정신 장애 감지에 널리 사용되는 수많은 데이터를 채우고 있다. 현재 정신적 장애 탐지의 중요성과 풍부한 데이터의 접근성은 연구 커뮤니티에서 정신 장애 탐지를 위한 딥러닝 모델 개발하고 있다. 하지만 최근에 나온 모델들은 정신적 장애에 대해 탐지를 잘 하지만 왜 탐지를 잘하는지에 대해서 설명능력이 매우 부족해서 블랙박스로 여겨지고 있다. 모델의 설명 가능성의 중요성을 활용하여 정신 장애를 감지하는 데 있어 정신 장애를 감지하는 데 있어 정신과적 증상을 찾는 몇 가지 시도가 있..

Paper/Model 2024.11.19

[Model Review] QWEN2 Technical Report

오늘은 Qwen 모델에 대해 공부를 하기 위해서 Qwen2 Technical Report를 읽고서 간단하게 요약하려고 한다. Qwen 모델에 대해 간단하게 알고 싶은 분들을 위해 작성한다.Paper 링크https://arxiv.org/pdf/2407.10671  Introduction여기서는 0.5B, 1.5B, 7B, 72B, 57B-A14B(MoE) 총 5개의 파라미터가 각각 다른 모델에 대해 소개하고 있다. 모델은 각각  7T 토큰의 데이터셋으로 훈련이 되었다. 토크나이저, 모델 구조, 데이터셋, 실험 등에 대해 상세하게 서술하고 있으며 MoE 모델에 대해서 매우 자세하게 얘기하고 있다. 0.5B와 1.5B는  스마트폰, 이어폰과 스마트 안경에 적합하고 그 외의 모델은 GPU에 적합하다고 말하고 있..

Paper/Model 2024.10.24

[Model Review] Orion-14B: Open-Source Multilingual Large Language Models

오늘은 Orion 중국회사에서 만든 다국어 LLM에 대해 리뷰를 진행해보려고 한다. 첫 모델 리뷰여서 어렵지만 진행해보려고 한다. 논문 링크https://arxiv.org/pdf/2401.12246Introduction이 논문에서는 Orion-14B 모델에 대해 소개를 한다. 이 모델은 약 2.5 trillion (2.5T) token으로 구성되어 있는 다양한 데이터셋으로 훈련되었다. 데이터셋에서는 주요 언어는 영어, 일본어, 한국어가 있으면 나머지 언어들도 섞여있다.  이 모델은 다국어 능력에서 현재 오픈소스로 공개되어 있는 모델 중에서 최고의 성능을 보여주고 있다. 그리고 이 모델을 기반으로 하는 여러 가지 fine-tuned 모델에 대해서도 소개한다.   Data데이터의 품질과 양에 따라 모델의 성..

Paper/Model 2024.09.20