Paper 25

[Paper review] Large Language Models Can Be Easily Distracted by Irrelevant context

Large Language Models Can Be Easily Distracted by Irrelevant context https://arxiv.org/abs/2302.00093 Introduction Large Language Models(LLMs)들을 프롬프팅하는 것(프롬프트 엔지니어링)은 여러 Benchmark에서 꽤 잘 수행하고 있다. 하지만 대부분의 Benchmark는 문제(input_text)에 정답이 있는 경우이다. 이러한 Benchmark들은 전처리(Preprocessing)이 잘 되어있는 Dataset이며, 이는 Real-world와는 매우 다르다. Real-world data는 Irrelevant-Context가 포함되어 있을 수 있고 없을 수도 있으며, 만약 포함되어 있다면 실질적..

Paper 2024.01.22

[Paper review] ProQA 리뷰

요즘 프롬프트에 관심이 생겼고 이 논문이 관심이 가게 되어서 리뷰를 하게 되었다. ProQA: Structural Prompt-based Pre-training for Unified Question Answering https://aclanthology.org/2022.naacl-main.313/ Introduction 질의응답(QA, Question Answering)은 NLP 연구에서 오랫동안 영감을 주는 도전과제로 여겨져 왔다. 최근 연구에서 모델은 특정 질문 유형(Extractive QA, Abstractive QA, Multiple-Choice QA)이나 특정 분야(NewsQA, NaturalQA)에 초점에 맞춰져 있다. 최근 LLM에 대한 연구는 다양한 Task에 대해 연결성이 있을 수 있음을..

Paper 2023.11.27

[paper review] GPT-1 : Improving Language Understanding by Generative Pre-Training

- reference Link_here 0. Abstract 현재의 문제점은 unlabeled text corpora는 풍부하지만, 특정한 task을 위해 train data(labeled data)는 부족해 모델을 적절하게 훈련시키는 것이 현재의 문제점입니다. 저자들은 Large unlabeled text 통해 model을 generative 하게 언어 모델을 학습시키고, 특정 task에서 fine-tuning 한다면, 큰 향상을 이룰 수 있다고 말합니다. 이전 접근법과 달리, model Aritecture을 크게 수정하지 않고 fine-tuning 합니다. 이를 위해 fine-tuning 중에는 input을 변환합니다. 이러한 접근법은 밑에 보이는 NLP task에서 task만을 위해 설계된 모델들을..

Paper 2023.10.08

[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2)

이전 포스팅 : https://giliit.tistory.com/53 [논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (1) - reference https://arxiv.org/abs/1810.04805 0. Abstract 저자는 새로운 언어 모델 BERT(Bidrectional Encoder Representations for Transformers)를 소개합니다. BERT는 길게 설명한 것처럼 트랜스포머 모델을 이용한 양방향 인 giliit.tistory.com - reference https://arxiv.org/abs/1810.04805 4. Experiments 이 섹션에서는 11개의..

Paper 2023.10.02

[논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (1)

- reference https://arxiv.org/abs/1810.04805 0. Abstract 저자는 새로운 언어 모델 BERT(Bidrectional Encoder Representations for Transformers)를 소개합니다. BERT는 길게 설명한 것처럼 트랜스포머 모델을 이용한 양방향 인코더 표현들입니다. BERT모델은 당시(2018년)의 대표 언어 모델 ELMo, GPT-1 과 다르게 양방향으로 데이터를 학습했습니다. ELMo와 GPT는 단방향으로 학습합니다. BERT모델은 unlabeled data를 통해 pre-train을 합니다. 이후 just one additional output layer 을 통해 fine-tuning 하여 Question Answering(QA, 질..

Paper 2023.10.02