논문링크
https://arxiv.org/pdf/2406.14952
Introduction
최근에 매우 빠른 LLM의 개발과 함께 LLM과의 대화가 매우 많이 늘어나고 있다. 다양한 대화 애플리케이션에도 불구하고, Emotional Support Conversation(ESC)는 매우 유망한 곳이다.여기서는 사람들이 쉽게 자신의 경험과 우려를 공유하고 감정적 위로를 받는다. 최근에 LLM 기반의 Coneversation이 증가하고 있지만, 포괄적인 평가는 매우 어렵다.
현재 ESC 평가는 2가지 방식으로 평가하고 있다.
평가 방식 | 장점 | 단점 | 예시 | |
text-based statistical metric | 자동 | 가격, 시간 효율적 | 텍스트의 의미가 아닌 텍스트의 유사도 평가 | BLEU, ROUGE |
manual evaluation | 수동 | 의미에 대한 파악이 확실 | 가격, 시간 비효율적 평가가 단조로움(특정 주제에 대해서만 대화) |
사람과 AI의 대화 |
두 가지의 평가 방식에 대해 해결하기 위해 논문에서는 ESC-Eval Framework를 제안한다. Figure 1 에서 오른쪽을 보면 된다. 여기서 LLM에게 인간의 평가 방식을 입혀 효율적인 평가 방식을 입힌다. 이를 통해 전통적인 평가방식을 대체할 수 있을 것으로 보고있다. 여기서 제시하는 Framework를 보장하기 위해 2가지 요소가 중요하다.
- 다양한 사례에서 문제를 겪는 사람들에게로 수집한 role card, 평가 중 LLM 역할 수행을 하고 평가를 보장한다.
- 실제 사람의 행동을 반영하는 Chatbot으로, 실제 사람의 대화를 반영하여 객관성과 공정성을 보장한다.
2가지 요소를 달성하기 위해 2가지 방식을 취했다.
- 7개의 데이터셋으로부터 GPT-4를 이용하여 role card를 추출한다. 추출시 GPT4와 사람 판단을 포함하여 필터링을 하여 2,801개의 role card를 획득하였다.
- Chatbot 구축을 위해 ESC-Eval을 위한 Chatbot을 개발한다. Qwen1.5를 fine-tuning하여 ESC-Role이라는 역할을 수행한다. 특히 이 모델은 GPT-4 보다 사람보다 유사하게 행동한다.
About ESC-Eval
ESC-Eval은 역할 수행 모델과 역할 카드를 활용하여 평가 중인 ESC 모델과 상호작용하고, 획득한 대화 데이터를 수동으로 주석 처리한다. 다양한 역할 카드와 신뢰할 수 있는 역할 수행 에이전트의 존재가 매우 중요하기에 이후 섹션에서는 이러한 두 가지 주요 요소의 신뢰성을 보장하기 위해 한 일에 대해 설명한다
세 개의 계층적 레이어와 37개의 카테고리로 구성된 분류 시스템을 먼저 구축한다. 그런 다음, 공개 데이터에서 역할 카드를 재구성하고 각 카테고리 내에서 역할 카드를 식별하는 방법을 사용한다. 3가지 단계로 구성된다.
Role Card Acquisition
- 오픈 데이터셋 수집
- GPT-4를 이용하여 역할을 추출한 뒤, 저품질 데이터를 필터링
- 수동 annotation Process를 통해 High, Middle를 나눈다. 그리고 그에 대한 내용은 Table 9에 나타나있다.
ESC-Role
ESC 시나리오에 특화된 역할 수행 에이전트인 ESC-Role을 구축하기 위해, 일반 데이터와 ESC 데이터셋을 사용하여 모델을 훈련한다. ESC-Role은 인간처럼 행동하는 대화 모델을 목표로 한다.
데이터 수집 :Smile, ESConv, ExTES 데이터셋을 포함한 여러 ESC 시나리오 데이터에서 3,390개의 역할 수행 데이터를 수집했다. 추가적으로 Huggingface에서 제공하는 다중 회차 대화 데이터셋을 활용하여, ESC 및 일반 역할 수행 데이터를 포함한 총 14K의 데이터를 확보했다.
구현 및 평가 지표 :ESC-Role의 기본 모델로 Qwen1.5-14BChat을 선택하고, LoRA를 이용해 파라미터 효율적으로 미세 조정했다. 평가 지표로는 유창성, 일관성, 주제 일치, 감정 일치, 인간 유사성 등 6가지 기준을 설정하고, 수동 평가와 쌍별 비교 평가를 통해 모델의 성능을 측정한다.
평가 결과 : ESC-Role은 GPT-4와 Baichuan-NPC보다 ESC의 도메인 특화 지표에서 더 인간다운 성능을 보였다. 또한, 인간 평가에서는 ESC-Role의 대화가 실제 인간 대화와 구분하기 어려웠으며, GPT-4와 Baichuan-NPC보다 우수한 성과를 보였다.
Evaluation
평가에 사용된 14개의 모델은 다음과 같다.
- Closed-source: GPT-4, ChatGPT
- Open-source: Vicuna, llama3, WizardLM, Qwen1.5, Chatglm3, Yi
- Domain-specific: ExTES-llama, ChatCounselor, MindChat, SoulChat3
평가 결과
평가에 사용된 14개의 모델은 다음과 같다:
- 폐쇄형 모델: GPT-4, ChatGPT
- 오픈 소스 모델: Vicuna, llama3, WizardLM, Qwen1.5, Chatglm3, Yi
- 도메인 특화 모델: ExTES-llama, ChatCounselor, MindChat, SoulChat
일반 모델 성과:
- 장점: 유창성, 표현 다양성, 정서적 위로 능력에서 높은 점수.
- 모델: GPT-4와 ChatGPT가 정서적 위로 지식에서 우수한 성과.
- 단점: 인간 중심적 응답에서 낮은 성과.
도메인 특화 모델 성과:
- 미세 조정: MindChat, SoulChat, EmoLLM 등은 영어 유창성에서 부족.
- 우수 성과 모델: ExTES-llama와 ChatCounselor가 뛰어난 성과 (실제 상담 데이터 및 ChatGPT 생성 데이터로 미세 조정).
- EmoLLM: 방대한 데이터 훈련으로 여러 기준에서 우수.
상관관계 분석
목적: ESC-Eval의 효과를 검증하기 위해 ESConv 데이터셋에서 20개의 예제를 무작위로 선택하고, 5개의 모델을 상관관계 분석에 포
과정: 모델들은 도움을 요청하는 사람을 모델링한 인간 평가자와 상호작용하고, 인간 평가 점수를 기준으로 ESC-Eval과 자동 평가 방법 간의 상관관계를 분석
결과 : ESC-Eval이 유창성과 공감을 제외한 대부분의 지표에서 높은 상관관계.
- 유창성: 자동화된 지표가 ESC-Eval보다 우수하며, 이는 일반 모델의 분절된 문장 표현이 ESConv와 상당히 다른 데 기인.
- 공감 지표: LLM의 정렬 과정 덕분에 공감 측면에서 상관관계가 높게 나타남.
- ESC-Eval 효과성 강조: ESC-Eval이 전체 평균 지표에서 높은 상관관계를 보여 효과성이 입증됨.
Conclusion
이 논문은 역할 수행 모델을 활용하여 다중 회차 대화 데이터를 수집함으로써, 대형 언어 모델(LLMs)에서의 감정 지원 대화(ESC) 효과와 지속 가능성을 평가하는 새로운 접근 방식을 제안한다.