Paper 25

[Paper Review] Building Emotional Support Chatbots in the Era of LLMs (ExTES Dataset) Review

오늘은 ExTensible Emotional Support(ExTES) dialog Dataset에 대해 리뷰해보려고 한다. 이 데이터셋은 ESConv Dataset에 문제점에 대해 파악하고 더 많은 데이터셋과 Strategy와 scenarios를 갖고 있다. 논문 링크https://arxiv.org/pdf/2308.11584  Introduction오늘날에는 Emotinoal Support Converstion은 개인의 well-being을 증가하는데 매우 중요한 역할을 한다. 이러한 대화는 감정을 자유롭게 표현하는 공간을 만들어 개인의 감정을 나누어 더욱 좋은 정신적 건강을 유지할 수 있도록 한다. 이러한 Emotional Support(ES)는 대두되는 중요성에도 불구하고 대규모의 라벨링된 데이터는..

Paper 2024.07.26

[Paper Review] BART : Bidirectional and Auto-Regressive Transformers 리뷰

논문 링크https://arxiv.org/abs/1910.13461오늘은 바트에 대래 리뷰해보려고 한다. 나는 졸업작품에서 BART를 사용했다. 하지만 Architecture에 대해 모르고 그저 성능이 좋다고 사용했는데, 이번에 기회가 되어서 리뷰를 했었고 그에 대해 정리를 해서 블로그에 업로드해보려고 한다. 그리고 논문에 내용을 최대한 함축해서 핵심만 설명하려고 한다. IntroductionBART Architecture가 나오기 이전에 유명한 2가지 모델이 BERT(Bidirectional Encoder Representations from Transformer)와 GPT(Generative Pre-Trained Transformer)이었다. 이에 대해 간략하게 소개해본다. BERT자세한 설명은 여기..

Paper 2024.07.20

[Metric Review] ROUGE Metric 분석

논문 링크https://aclanthology.org/W04-1013/  ROUGERouge은 Recall-Oriented Understudy for Gisting Evaluation의 약자이다. ROUGE는 사람이 만든 참조 요약과 컴퓨터가 생성한 요약 사이의 일치 정도를 측정한다. 이 논문은 ROUGE가 포함된 네 가지 다른 ROUGE 메트릭, 즉 ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S를 소개합니다. 각 메트릭은 요약의 다른 측면을 평가한다.ROUGE-N: 이 메트릭은 N-gram 기반으로 평가한다. 이는 요약에서 사용된 단어의 연속적인 나열이 참조 요약과 얼마나 일치하는지를 측정하여, 텍스트의 어휘적 정확성을 평가한다. N이 클수록, 문맥적 일관성과 정확성을 더 자세히 분석한..

Paper/Metric 2024.07.18

[Paper Review] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(RAG) 리뷰

IntroductionPre-trained Language Model(PLM) 장점상당한 지식 습득외부 메모리 접근 없이 지식 풍부PLM 단점Hallucination메모리의 확장 및 수정 불가능PLM의 단점을 위해 parametric memory + non-parametric memory → Seq2Seq Model을 설계Parametric memory (e.g., Logistic Regression, Linear Regression)Pre-trained seq2seq transformerNon-parametric memory(K-NN, Decision Tree, Random Forest)dense vector index of Wikipedia여기서 Retriever는 Top-K approximation..

Paper 2024.07.17

[Paper Review] Efficient Computation of Rankings from Pairwise Comparisons

논문링크 https://jmlr.org/papers/volume24/22-1086/22-1086.pdf 다음 논문은 Bradly-Terry Model을 이용해서 Pairwise comparisons를 통해 여러 Class 간의 순위를 매기는 것을 이용해 우선순위를 최대 우도 추정법을 이용하여 빠르게 수렴시키는 방법에 대한 논문이며, 이에 대해 리뷰하려고 한다. 수식유도에 대해 설명을 하고 증명은 생략한다. Introduction 우리는 각 개인 $ i $에게 수치 점수 $ \pi_i $를 할당하고 $ i $가 $ j $를 이길 확률 $p_{ij}$로 가정하며, 가장 인기 있는 Logistic function을 사용한다(확률로 표현하기 좋은 함수). $p_{ij}$를 다음과 같이 사용한다. 여기서 $\pi..

Paper 2024.04.03

[Metric Review] CIDEr Metric 분석

논문링크 https://arxiv.org/pdf/1411.5726.pdf Introduction 논문이 나온 시점에서 이미지에 설명하는 문제에 대해 이미지를 인간과 같은 방식으로 설명을 생성하는 관심이 생기고 있었다. 그 와 관련하여 Automatic evalution으로 Sentence evalution은 아직 어려운 분야였다. 논문 이전의 Automatic evalution matric은 Precision 기반의 BLEU와 Recall 기반의 ROUGE가 있었다. 하지만 이러한 Metric은 Human evalution과 Automatic evalution의 Pearson correlation가 낮다고 표시된다. 이후 METEOR가 나오면서, 더 나은 Correlation을 보여주고 있지만 이미지 설..

Paper/Metric 2024.04.01

[Metric Review] BLEU Metric 분석

논문링크 https://aclanthology.org/P02-1040.pdf Introduction Machin Translation(MT)에 대해 사람의 평가는 광범위하며 비용이 많이 발생한다. 심지어 사람이 MT의 성능을 파악하는데 몇 달이 걸릴 수 있으며 매우 큰 비용의 노동력을 필요로 한다. 그래서 저자는 다음과 같은 특징을 가진 automatic machine translation evaluation 방법을 제안한다. Quick Inexpensive Language-independent that correlates highly with human evaluation Little marginal cost per run 다음과 같은 특징을 통해 BLEU Metric이 Human Evaluation을..

Paper/Metric 2024.03.31

[Metric review] METEOR Metric 분석

논문 링크 https://aclanthology.org/W05-0909.pdf Introduction 논문이 써질 시점을 기준으로 Machin Translation(MT) 평가에 대해 Automatic Metric이 상당한 주목을 받게 되었다. 그 이유는 MT System에 대해 Metric을 사용하여 Evalution 하는 것이 두 개 국어를 할 줄 아는 사람이 Evaluation을 하는 것보다 훨씬 바르고 쉽고 저렴하기에 MT Metric에 대해 관심이 높아졌다. 하지만 여러 수식이 MT Evalution Metric이 되는 것은 아니다. 다음은 Metric에 대한 조건이다. Metric의 조건 인간의 평가와 매우 높은 상관관계를 가져야 함 MT 품질에 대해 민감해야 함 Consistent (비슷한 ..

Paper/Metric 2024.03.29

[Paper review] Towards Emotional Support Dialog Systems(ESConv)

Emotional Support 관련하여 조사하다가 ESConv라는 Dataset와 관련하여 논문을 읽게 되었다. Towards Emotional Support Dialog Systems https://arxiv.org/abs/2106.01144 Introduction Emotional Support(ES) 목표 개인의 감정적 고통을 해소 개인의 문제들을 이해하고 극복을 목표 개인의 문제 상담을 통해 해결하는데 도움 제공 Emotional Support(ES) 예시 social interaction(cheering up the user) mental health support(comforting a frustrated help-seeker and helping identify the problem) cu..

Paper 2024.03.06

[Paper review] Large Language Models Can be Lazy Learners

이번 논문은 Large Language Models의 취약점에 대해 설명하는 논문에 대해 리뷰해 보겠습니다. Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning https://arxiv.org/abs/2305.17256 Introduction Fine-tuning Pre-trained Language Model(PLM)을 특정 Task에 맞게 Parameter를 조정 Fine-tuning 과정은 Dataset에 대해 특정한 편향을 증폭시키는 경향, Task의 특정 단어에 의존하는 경향이 발생( e.g., "is", "not" and "can not"과 같은 단순한 단어를 통해 Task를 추론) ⇒ Task..

Paper 2024.02.08