728x90

오늘은 ExTensible Emotional Support(ExTES) dialog Dataset에 대해 리뷰해보려고 한다. 이 데이터셋은 ESConv Dataset에 문제점에 대해 파악하고 더 많은 데이터셋과 Strategy와 scenarios를 갖고 있다. 

논문 링크
https://arxiv.org/pdf/2308.11584

 

 

Introduction

오늘날에는 Emotinoal Support Converstion은 개인의 well-being을 증가하는데 매우 중요한 역할을 한다. 이러한 대화는 감정을 자유롭게 표현하는 공간을 만들어 개인의 감정을 나누어 더욱 좋은 정신적 건강을 유지할 수 있도록 한다. 이러한 Emotional Support(ES)는 대두되는 중요성에도 불구하고 대규모의 라벨링된 데이터는 매우 적다. 이와 관련한 데이터로는 twitter, Reddit 그리고 Online Support Group 등이 있다. 하지만 이러한 데이터셋은 단일 턴 상호작용 시나리오이다. 하지만 ESConv Dataset은 대화는 다중 턴 대화를 강조한다. 하지만 데이터셋의 규모는 매우 작고 전략과 시나리오의 다양성이 매우 부족하다.

최근 GPT3과 같이 sep2sep 기반 Large Language Model(LLM)은 Natural Language Processing(NLP)에서 매우 뛰어난 텍스트 생성 능력을 보여주고 있다. 이러한 생성 능력을 이용해 데이터 부족 문제와 ES 중심의 정교한 LLM을 만든다. 만든 LLM을 이용해 ExTensible Emotional Support(ExTES) Dataset을 만들려고 한다. 이러한 데이터 셋을 분석하여 얻은 결론은 다음과 같다.

  1. Dataset인 ExTES 공개하면 LLM을 이용하여 확장 가능하므로 더욱 다양한 데이터셋을 얻을 것이다.
  2. ES System에 더욱 발전을 기여할 것이다.

 

 

 Dataset Collection


여기에서는 ChatGPT를 이용한 데이터셋 수집 과정에 대해 소개한다. multi-turn emotional support chat corpus를 만드는 과정은 2가지로 나뉜다.

  1. 기존의 Dataset + online platform exemplar diaogues를 이용해 다양한 emotional support scenarios와 response strategies 등을 포함하여 차원이 다른 풍부함과 관련성을 강조한다.
  2. 기존 예시들과 ChatGPT를 이용하여 다양한 Dialog를 생성하며, 모두 검사한다. 정제된 대화들은 반복되는 방식들을 이용해 다양한 예시들을 추가한다.

이러한 방식을 통해 사람의 노동이 줄고 데이터셋 무결성과 효율적이게 된다.

 

Comprehensive Scope and Strategies

Emotional support conversations의 다양함을 보장하기 위해 포괄적인 시나리오와 반응 전략이 포함되어야 한다. 이전의 emotional support reseach의 insight와 심리적 상담을 이용한 문헌들을 이용해 다양한 시나리들을 생성했다.

논문의 저자가 디자인한 format을 기준으로 Seed Dialogue를 주고서 Dataset을 생성하도록 시켰다. 그리고 user, AI가 각각의 입장에서 대답을 생성하도록 하였으며, AI는 각 전략 중에서 맞는 전략을 tag 하도록 하였다. 생성하면서 각각 대화에 대해 평가를 매기도록 하였다. 87개의 seed dialogue를 통해 1k개의 dialogue를 얻었고, seed dialogues를 바꾸면 또 1k 개의 dialog를 얻어서 seed dialogue만 있다면 데이터셋 확장을 할 수 있다.

 

36개의 시나리오와 16개의 전략

ESConv의 5개의 시나리와는 달리 여기의 데이터셋에는 총 36개의 시나리오를 포함하고 있다. 또한 ESConv의 8개의 전략과는 달리 여기는 16개의 전략을 포함하고 있다.

시나리오와 전략에 대한 자세한 설명은 하단의 부록에 적어놓았다.

 

Dataset Characteristics and Quality

여기에서는 데이터셋에 대한 전반적인 통계에 대한 설명이다.

ExTES 데이터셋은 ESConv 데이터셋과 다른 점은 표와 나타나 있다.

  • 더 많은 Dialoges
  • 더 많은 Strategies
  • 더 많은 scenarios

데이터셋에서 전략의 변화 중 가장 많이 나타난 것에 대한 통계이다. 대체적으로 EV -> RS가 가장 많았다.

데이터셋에서 Dialogue에 대해 4분할을 하여 전략의 분포를 파악했으며, 처음에는 EV와 RS가 많은 반면에, 후반으로 갈수록 SI와 Aff가 많아지는 것을 파악할 수 있다.

데이터셋의 퀄리티에 대해서도 5가지 기준을 통해 평가했다. 여기서 Crowd-sources는 seed dataset이며, ExTES는 생성된 데이터셋이다. 

  • Informativeness : 도움을 원하는 개인의 감정적 고통을 정교하게 설명하는가
  • Understanding : 개인의 감정과 기분을 잘 알고 있는 정도
  • Helpfulness : 감정적 불편함을 잘 완화하는가
  • Consitency : 역할에 대해 모순적인 말 없이 일관되게 잘 말하는가
  • Coherence : 대화가 집중적이고 깊이 있게 유지되는 경우와 주제 간 변환이 원활한가

5가지 기준을 바탕으로 진행했을 때, 크게 차이가 없는 것을 알 수 있다.

 

Experiments

여기서는 실험을 진행하면서 데이터셋에 맞는 훈련기법에 대해 탐구하였다. 총 3가지 방식을 이용한 모델을 사용했다.

  1. DialoGPT Fine Tuning
  2. LLaMA Adapter-Tunning
  3. LLaMA LoRA-Tunning

3가지 모델을 총 3가지 방향으로 탐구를 진행하였다.

  1. Q1. 어떤 Fine-Tuning 기술이 Emotional Supprot chatbot을 만드는데 가장 효과적인가
  2. Q2. 새로운 데이터셋은 여러 기준에 대해 충분히 상향되었는가
  3. Q3. 자동평가와 인간평가가 얼마나 상호보완적인가

 

Q1. Experiemnts on ExTES

여러가지 지표를 이용하여 평가를 진행하였음

Metrics

  • BLEU-2/4
  • METEOR
  • ROUGE-L
  • Vector Extrema
  • Distinct-1/2/3

여기서 모델은 전략을 사용해 답변하는 것과 전략을 사용하지 않고 답변하는 방식으로 훈련을 진행하였고 총 6가지 방식을 평가한다.

실험을 통해 얻은 결과는 3가지다.

  1. LoRA, Adapter-Tuning이 DialoGPT보다 모든 metric에서 좋은 성능을 나타낸다.
  2. LoRA가 Adapter보다 근소하게 나마 좋은 성능을 나타내고 있다.
  3. 전략을 사용한 것이 전략을 사용하지 않은 것보다 좋다.

R-L과 D-1/2/3에서는 그렇지 않은데 이유는 전략을 통해서 답변이 한정되게 하기 때문에 저러한 결과가 출력된 것이다.

 

Q2. Cross-dataset Experiments

LLaMA LoRa-Tuning 방식을 이용한 모델

  • ESConv Dataset을 이용해 Tuning한 모델
  • ExTES Dataset을 이용해 Tuning한 모델

평가는 ESConv, ExTES Dataset 각각 Cross 해서 평가하였음

결론적으로 ESConv로 Tuning한 모델이 더 낮은 성능을 나타내었음. 그 이유는 다음과 같다.

  1. ESConv Dataset은 시나리오가 적다.
  2. ESConv Dataset은 데이터가 적다.

 

Q3. Human Evaluation

다른 전공의 50명의 학생들을 고용해서 각 학생마다 100번의 conversation을 진행하도록 하였음.

평가 기준은 다음과 같다.

  • Fluency : 조리있고 쉽게 이해할 수 있도록 대답했는가
  • Identification : 당신의 상황에 대해 더 깊게 탐구하고 문제를 효과적으로 이해하는가
  • Comfoting : 편안함과 도움을 능수능란하게 주는가
  • Suggestion : 당신의 문제에 대해 해결을 위해 제안을 하는가
  • Overall : 전체적으로 얼마나 괜찮은가

결과는 다음과 같다.

  1. LoRA-Tuning LLaMA with ExTES 이 모델이 가장 효과적으로 응답을 잘하였음.
  2. strategies version이 suggestion에서 조금 더 우수한 성능을 나타냈다.

 

Conclusion

이 논문은 LLM을 이용해 데이터셋을 생성하는 것을 보여주었으며, 여러 Seed Dataset이 있다면 확장시켜서 더욱 많은 데이터셋을 만들 수 있다고 한다.

많이 만든 데이터셋은 더욱 ES System 발전에 기여할 것이라고 한다.

 

Appendix(부록)

Definition of Strategies

여기서는 전략에 관해 설명하려고 한다.

Reflective Statements (RS) : User의 기분에 대해 반복해서 확인하는 것

Clarification (Cla) : User가 왜 그런 기분을 느꼈는지 확인하는 것

Emotional Validation (EV) : User의 감정을 확인하는 것

Empathetic Statements (ES)  : User가 감정을 느끼게된 이유와 함께 공감하기

Affirmation (Aff) : 할 수 있다고 단언하기

Offer Hope (OH) : 희망을 주는 것 

Avoid Judgement and Criticism (AJC) : 선택이나 경험에 대해 부정적 감정을 느낄 때, 복돋우기

Suggest Options (SO) : 해결책을 제시하기

Collaborative Planning (CP) : 혼자서 해결하는 것보다 다른 사람과 협력하도록 하기

Provide Different Perspectives (PDP) : 다른 관점에서 보도록 제시

Reframe Negative Thoughts (RNT) : 부정적 생각에 대해서 좋은 것을 보도록 변환하기

Share Information (SI) : 경험 공유하기

Normalize Experiences (NE) : 부정적인 감정이나 그러한 것에 대해 일반적이라고 말하기

Promote Self-Care Practices (PSP) : 자신을 돌보도록 하기

Stress Management (SM) : 스트레스 관리와 관련된 정보 제공

Others (Oth) : 인사하는 것과 위에서 언급되지 않은 전략

Example of Scenarios

너무 많아서 생략