코딩 메모장

[Paper Review] LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

논문링크(Published at NeurIPS 2022)https://arxiv.org/abs/2208.07339Introduction최근에 사용하는 Large Langugage Models(LLMs)는 추론을 위해 상단한 메모리를 요구한다. 이와 관련해서 LoRA(LoRA: Low-Rank Adaptation of Large Language Models) 기술이 나왔다. 파라미터의 사이지를 줄이는 기술 중 하나로 파라미터를 더 낮은 비트로 양자화하고 낮은 비트 정확도 행렬곱을 사용한다. 이 논문에서는 트랜스포머 라이브러리의 8비트 양자화 방법대해서 개발했다. 이 방법을 통해서 성능은 유지하며 이전보다 더 낮은 메모리 할당량을 갖게하려고 한다. 이전 기술은 350M 파라미터보다 적은 경우엔 충분히 좋았지..

Paper 2024.11.21

[Paper Review] CURE: Context- and Uncertainty-Aware Mental Disorder Detection

논문링크https://aclanthology.org/2024.emnlp-main.994/Introduction시간적, 공간적 제약 없이 온라인에서 정신 건강 전문가와 유사한 경험을 공유하는 많은 동료들과 개인을 연결하는 소셜 미디어는 정신 장애 감지에 널리 사용되는 수많은 데이터를 채우고 있다. 현재 정신적 장애 탐지의 중요성과 풍부한 데이터의 접근성은 연구 커뮤니티에서 정신 장애 탐지를 위한 딥러닝 모델 개발하고 있다. 하지만 최근에 나온 모델들은 정신적 장애에 대해 탐지를 잘 하지만 왜 탐지를 잘하는지에 대해서 설명능력이 매우 부족해서 블랙박스로 여겨지고 있다. 모델의 설명 가능성의 중요성을 활용하여 정신 장애를 감지하는 데 있어 정신 장애를 감지하는 데 있어 정신과적 증상을 찾는 몇 가지 시도가 있..

Paper/Model 2024.11.19

캡스톤 디자인은 정말 힘들어요

캡스톤디자인 팀은 3명으로 구성했다.FrontEndBackEndAI총 3명이서 각각의 파트를 정해서 팀원을 구성했다. 보통 4명을 많이 하는데 3명을 한 이유는 각자의 파트가 겹치는 것을 염려해서이다. 파트가 겹치게 된다면 누군가는 도움을 주고 누군가는 도움을 받는 일이 무조건적으로 생길 수 밖에 없다. 그렇게 되면 결국 누군가는 업혀가게 되면서 좋지 않을 수 있기 때문에 각각 파트는 1명이 담당하는 식으로 진행했다.우리학교의 캡스톤디자인은 총 1년과정이다. 캡스톤디자인 (1), 캡스톤디자인 (2) 2개 학기로 구성되어있고 캡스톤 디자인 (1)은 3학년 2학기에 듣게 되고 캡스톤 디자인 (2)은 4학년 1학기에 진행한다. 요약하면 다음과 같다.캡스톤 디자인 (1)9월 ~ 10월팀빌딩 및 아이디어 ..

활동/교내활동 2024.11.17

[해커톤] 2024년 인천대 정보기술대학 해커톤(럭키톤,Lucky-thon) 대상(1등) 후기

오늘은 학교 교내에서 진행했던, 해커톤인 Lucky-thon에 대해 후기에 대해 작성하려고 한다.일단 결론부터 말하자면, 대상을 탔다. 근데 정말로 대상을 탈 줄 몰랐기 때문에 더욱 놀랐던 거 같다. 이와 관련해서 무슨 일이 있었는지 처음에 팀 구성부터 시작해서 어떻게 하게 되었는지 자세하게 얘기해 보겠다.팀 빌딩팀원은 3명에서 4명이 모이기로 했는데 여기서 고민을 했다. 팀원을 어떻게 구성해야 좋을까 라는 생각을 했었다. 개발 기간이 긴 편이지만, 중간고사 시험기간이 겹쳐 있었기 때문에 고민을 해본다면 '개발 기간을 어느 정도로 가져가야 할 것인가'다. 일단, 당장 나는 시험을 보지는 않지만, 다른 프로젝트를 진행하고 있는 상황이어서 시간을 많이 쏟기는 어려울 거라고 생각했다. 그래서 시간을 많이 쏟..

활동/교내활동 2024.11.16

[해커톤] 2024년 멋쟁이 사자처럼 해커톤

멋쟁이 사자처럼에서 해커톤을 하면서 경험했던 것들에 대해 적어보려고 한다. 시작은 생각보다 우여곡절이 많았다. 처음에는 아이디어톤을 했었던 분들과 같이하고 싶었지만, 확답을 주는 것이 어려웠다. 대학교 석사를 위해 학회를 준비하고 있었다. 그 학회가 대회 해커톤과 일정이 겹치는 바람에 학회 일정이 취소되고 나서 확답을 줄 수 있었다. 두 행사의 일정이 겹친다.학회 참가 어렵다는 메일학회 참가가 어려워서 해커톤에 참여하기로 결정했다. 하지만, 이 결정을 내리는 당시에는 아이디어톤 인원들이 이미 팀 구성이 끝난 상황이어서 팀을 구하기가 어려웠다. 그래서 이건 안되겠다고 생각해서 멋사 MT 때, 같이 할 사람을 모집했다. 여기서도 어려웠던 것이 이미 팀이 있었고, AI를 사용할 일이 없다고 했던 것이다. ..

활동/대외활동 2024.11.14

[대회] 2024 INU CODE FESTIVAL

생애 첫 상품을 타게 되었던 대회인 2024 INU CODE FESTIVAL 참가 후기에 대해 소개하려고 한다. 위 대회에 참가 권유가 와서 참가를 고민했었다. 참가를 고민한 이유는 8월 중순부터 알고리즘 스터디 운영을 중단하면서 백준, 프로그래머스와 같은 관련 문제들을 일절 손에 대고 있지 않았기 때문이다. 그래서 내가 참가하더라도 상을 못할 것 같아서 일부러 참여하지 않았다. 그런데 이민규씨가 그냥 간단하게 링크하나만 보냈다.(참가하라는 암묵적 의미..)그래서 어차피 불참해도 내년에 참가는 안할거니까 일단 그냥 신청만 했었다. 그리고 정말 아무것도 준비하지 않았다. 2023, 2024년 문제 풀었던 통계9월 30일에 있는 것은 대회 이후에 한 것이므로 다시말하면 백준은 2월부터 풀고 있지 않아서 자..

활동/교내활동 2024.11.10

[Paper Review] ESC-Eval: Evaluating Emotion Support Conversationsin Large Language Models

논문링크https://arxiv.org/pdf/2406.14952 Introduction최근에 매우 빠른 LLM의 개발과 함께 LLM과의 대화가 매우 많이 늘어나고 있다. 다양한 대화 애플리케이션에도 불구하고, Emotional Support Conversation(ESC)는 매우 유망한 곳이다.여기서는 사람들이 쉽게 자신의 경험과 우려를 공유하고 감정적 위로를 받는다. 최근에 LLM 기반의 Coneversation이 증가하고 있지만, 포괄적인 평가는 매우 어렵다.현재 ESC 평가는 2가지 방식으로 평가하고 있다. 평가 방식장점단점예시text-based statistical metric자동가격, 시간 효율적텍스트의 의미가 아닌 텍스트의 유사도 평가BLEU, ROUGEmanual evaluation수동..

Paper 2024.11.06

[Paper Review] PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

최근에 동아리에서 구현해야 할 기술에 대해 고민을 하고 있는데 범위가 상당하다 보니 데이터를 만들어서 진행하는 것은 어렵다고 판단했다. 그래서 데이터베이스에서 가져오는 방법을 고민하고 있으며 그중에서 NAACL에 대해서 찾아보다가 알게 되어서 논문을 읽어보았다.논문링크https://arxiv.org/pdf/2406.12430Introduction현실세계에서 사업과 관련된 상황에서 결정을 하는 것은 매우 중요한 일이다. 결정을 하기 위해서는 데이터 분석을 통해 가장 적절한 결정을 해서 목표를 달성하는 것이다. 일반적으로 결정을 하는 일은 3가지 과정을 요구한다.결정에 필요한 데이터들을 분석하여 계획을 세운다.관련된 필수적인 데이터를 검색한다.데이터를 기반으로하여 걸 정한다.여기서 2번과 3번 과정을 쉽게 ..

Paper 2024.10.26

[Paper Review] Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

오늘은 RAG에 대해 좀 더 진화한 Self-RAG에 대해 알아보았고 페이퍼 리뷰를 적어보려고 한다.논문링크https://arxiv.org/abs/2310.11511 Introduction최근의 State-Of-The-Art(SOTA) 모델들은 사실적 오류(할루시네이션 등)에 대해 방지하고자 Retrieval-Augmented Generation(RAG) 방식을 사용하고 있다. 하지만 이런 방식은 Large Language Models(LLMs)의 다재다능과 불필요한 정보들을 추가할 수 있기 때문에 오히려 문제가 생길 수 있다. 특히, 품질이 떨어지는 정보들을 가져올 수 있기 때문이다. 그래서 여기서는 Self-Reflective Retrieval-augmented Generation(SELF-RAG) ..

Paper 2024.10.25

[Model Review] QWEN2 Technical Report

오늘은 Qwen 모델에 대해 공부를 하기 위해서 Qwen2 Technical Report를 읽고서 간단하게 요약하려고 한다. Qwen 모델에 대해 간단하게 알고 싶은 분들을 위해 작성한다.Paper 링크https://arxiv.org/pdf/2407.10671 Introduction여기서는 0.5B, 1.5B, 7B, 72B, 57B-A14B(MoE) 총 5개의 파라미터가 각각 다른 모델에 대해 소개하고 있다. 모델은 각각 7T 토큰의 데이터셋으로 훈련이 되었다. 토크나이저, 모델 구조, 데이터셋, 실험 등에 대해 상세하게 서술하고 있으며 MoE 모델에 대해서 매우 자세하게 얘기하고 있다. 0.5B와 1.5B는 스마트폰, 이어폰과 스마트 안경에 적합하고 그 외의 모델은 GPU에 적합하다고 말하고 있..

Paper/Model 2024.10.24

코딩 메모장

전체 글 147

티스토리툴바

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30