Paper/Model

[Model Review] Orion-14B: Open-Source Multilingual Large Language Models

Giliit 2024. 9. 20. 21:56
728x90

Orion 회사

오늘은 Orion 중국회사에서 만든 다국어 LLM에 대해 리뷰를 진행해보려고 한다. 첫 모델 리뷰여서 어렵지만 진행해보려고 한다.

 

논문 링크
https://arxiv.org/pdf/2401.12246

Introduction

이 논문에서는 Orion-14B 모델에 대해 소개를 한다. 이 모델은 약 2.5 trillion (2.5T) token으로 구성되어 있는 다양한 데이터셋으로 훈련되었다. 데이터셋에서는 주요 언어는 영어, 일본어, 한국어가 있으면 나머지 언어들도 섞여있다.  이 모델은 다국어 능력에서 현재 오픈소스로 공개되어 있는 모델 중에서 최고의 성능을 보여주고 있다. 그리고 이 모델을 기반으로 하는 여러 가지 fine-tuned 모델에 대해서도 소개한다.  

 

Data

데이터의 품질과 양에 따라 모델의 성능이 좌우되기에 데이터의 품질은 매우 중요하다. 그래서 이와 관련해서 총 3가지 파트로 훈련시킨 데이터에 대해 소개한다.

  • Data Source
  • Data Quality
  • Deduplication

 

Data Source

이전에 연구에서 10B 모델은 205B Token의 데이터를 필요로 했다.(2022) 하지만 이후 연구(2023)에서는 2.5T ~ 3.0T Token의 데이터를 필요로 한다. 이런 연구를 통해 데이터가 많으면 많을수록 좋다는 것이다. 

데이터셋의 언어 구성

  • 영어와 중국어 90%
  • 한국어와 일본어 5% 이상
  • 나머지 언어(스페인어, 프랑스어, 독일어) 약 4%

데이터셋의 언어체 구성

  • 주로 서면 언어로 구성 및 구어 언어는 소수의 비중을 차지

 

데이터셋의 소스 구성

 

 

Data Quality

데이터의 질을 보장하기 위해서 4개의 방식을 사용했다.

  • Text normalization : 웹페이지에서 가져온 데이터는 HTML Tag가 많다. 여기서 Tag를 제거하기 위해 정규식이나 format parser를 사용해서 효과적으로 제거한다.
  • Harmful content removal : 인터넷에 있는 해롭거나 스팸 데이터를 제거했다. 2가지 단계를 통해 제거했다. 하지만 모두 삭제하는 것은 오히려 해로운 데이터에 대해 취약하기 때문에 소수의 데이터만을 남겨두었다.
    • 키워드나 정규식을 사용해 해로운 데이터 찾아내기
    • deep learning-based model을 이용해 해롭다고 판단되면 삭제하기 
  • Personal information removal : 이름, 전화번호 그리고 주소를 삭제하는데 rule-based 방식을 이용해 대체하거나 아얘 삭제했다.
  • Quality filtering : 많은 반복을 포함하는 텍스트에 대해 특정 규칙을 적용해 데이터를 필터링을 한다. 이후 N-gram perplexity model을 이용해 높은 perplexity 높은 텍스트를 제외

 

Deduplication

LLM 훈련 데이터는 여러 곳에서 가져오기 때문에 중복된 데이터를 가져올 확률이 높다. 중복된 데이터는 훈련에 부정적인 영향을 미칠 수 있기에 중복으 제거하는 절차를 개발했다. 절차는 다음과 같다.

  • 각 문에서 핵심 단어와 구를 추출
  • 해당 임베딩 벡터와 SimHash 벡터를 계산
  • DB의 벡터와 비교하여 특정 임계값을 넘는다면 중복으로 간주하여 삭제

또한, 특정 Evaluation Dataset을 가져와 데이터셋에 대해 Overfitting이 진행될 수 있으므로 Evaluation Dataset가 중복된다면 모두 제거해서 Evaluation Datset의 신뢰성을 향상시켰다.

 

Pretraining

Tokenizer

이 모델은 다국어를 사용하기 때문에 여러 언어에서의 word-level 과 subword-level을 필요로 한다. 그래서 여기서 byte-pair encoding (BPE) 알고리즘으로 구현된 SentencePiece를 이용한 Tokenizer를 만들었다. 이 Toeknizer는 99.99% 문자를 다룰 수 있다. 다양한 코퍼스를 구축하고 우리의 훈련 데이터 분포에 맞추기 위해, 우리는 훈련 코퍼스에서 다양한 유형의 텍스트를 선별합니다. 여기에는 영어, 간체 중국어, 번체 중국어, 일본어, 한국어, 몇몇 다른 언어, 그리고 희귀한 문자들이 포함된다. 표 1에서는 우리의 토크나이저와 다른 오픈 소스 토크나이저의 자세한 비교를 제공합니다. 이 비교에는 어휘 사전 크기와 압축 비율(CR)이 포함되며, 후자는 원본 데이터의 크기를 토크나이즈된 데이터의 크기로 나눈 비율로 계산한다.

Toknizer의 Vocab Size가 상당히 많은 것을 알 수 있고 그래서 CR의 수치도 다른 모델에 비해 훨씬 낮다.

 

Architecture

LLaMA2가 우수한 성능을 달성했기 때문에 LLaMA2 Architecture를 준수하며 여러 수정을 거쳤다.

  • 토큰 수 84,608로 확장
  • Feed Forward Network(FFN) dimension 15,360 확장
  • 이외에는 동일

 

Experiments Setup

GPU

8개의 NVIDIA H800 GPU를 장착한 11개의 서버로 구성된 클러스터

Freamwork

FlashAttention2를 Megatron-LM 통합하여 GPU당 초당 4,000-5,000 토큰의 훈련 속도를 달성

Hyper parameter

 

학습률 스케줄링:

  • 워밍업 이터레이션 수: 2,000
  • 최대 학습률(peak learning rate): 3e-4
  • 최종 학습률(final learning rate): 3e-5
  • 학습률 감소 방식: 코사인 스케줄

옵티마이저 설정:

  • 옵티마이저: AdamW
  • β₁: 0.9
  • β₂: 0.95
  • 가중치 감쇠(weight decay) 계수: 0.1
  • 그래디언트 클리핑 임계값: 1.0

훈련 세부사항:

  • 정밀도: BF16/FP32 혼합 정밀도
  • 배치 크기(batch size): 1,408
  • 스텝당 토큰 수: 약 5,700,000

 

Data Scheduling

대형 언어 모델(LLM)을 훈련하기 위해서는 수천억에서 수조 개의 토큰이 필요하며, 연구에 따르면 모델 크기보다 토큰 수의 증가가 성능 향상에 더 큰 영향을 미친다. 우리는 1,400억 개의 파라미터를 가진 Orion-14B 모델을 2.5조 개의 토큰으로 훈련하여 계산 효율성과 비용의 균형을 맞춘다.

특히, 훈련 데이터의 순서를 전략적으로 저절하는 데이터 스케줄링 전략을 도입하여 모델의 성능을 향상시켰다.

단계별 훈련 데이터 구성:

  • 초기 단계 (0 ~ 600억 토큰): 웹 페이지와 뉴스 기사 등 일반 지식을 포함한 데이터 사용. 주요 언어는 영어와 중국어.
  • 중간 단계 (600 ~ 1,100억 토큰): 교과서와 학술 논문 등 복잡한 지식을 포함한 데이터 비율 증가. 언어 다양성을 기타 언어로 확장.
  • 최종 단계 (1,100 ~ 2,000억 토큰): 소스 코드 등 더 복잡한 데이터를 추가하여 지식의 깊이 확대.

언어 다양성의 확대: 훈련 초기에는 영어와 중국어를 중심으로 시작하여 일본어와 한국어 등으로 확장했다.

이러한 접근법의 효과를 검증하기 위해 훈련 과정에서 검증 세트의 손실 변화를 모니터링했다. 그 결과, 훈련 데이터 분포가 변경되는 시점(600억 및 1,100억 토큰)에서 검증 손실이 크게 감소하였으며, 이는 모델이 데이터의 다양성에 적응하고 있음을 나타낸다.

Orion-14B는 특정 데이터 스케줄링 전략으로 훈련된 최초의 LLM입니다. 평가 결과에 따르면, 이 모델은 초기 단계에서 언어 이해 작업에서 인상적인 성능을 보이고, 이후 단계에서 추론 및 학술 작업에서의 능력을 빠르게 향상시켜 우리의 데이터 스케줄링 정책과 일치합니다. 2.5조 개의 토큰으로 훈련된 Orion-14B는 2.6조에서 3조 개의 토큰으로 훈련된 다른 오픈 소스 모델과 비슷한 성능을 달성하여 우리의 데이터 활용 접근법의 효율성을 보여준다.

 

 

Fine-tuning

SFT(Supervised fine-tuning) Data

여기서 2가지 종류의 데이터를 사용한다. 사람이 직접 라벨링한 데이터와 오픈 소스 필터링된 데이터셋 2가지이다.

고품질의 데이터셋을 위해 라벨링 전문가 팀을 구성하여 데이터셋을 생성했다. 데이터셋의 품질 보장을 위해 helpfulness, truthfulness, and harmlessness를 준수하는 총 220,000개의 데이터셋을 생성했다.

사람이 모두 라벨링을 할 수 없으므로 고성능 LLM을 이용해 open-source filtered dataset을 구축했다. 원래  COIG, WildChat, OpenOrca, UltraChat과 같은 데이터셋을 포함하지만, Cleaning Process를 구현했다. 방식은 다음과 같다.

  • Rule-based filtering : 정규표현식을 사용하여 개인정보 및 민감한 데이터를 제거하는 필터링을 수행
  • Quality filtering : LLM을 이용해 품질에 대한 점수를 매기고 7점 이상의 데이터만 유지
  • Semantic deduplication : 텍스트 임베딩을 사용하여 유사도가 0.98 이상 데이터는 중복으로 간주하여 제거

위의 과정을 통해 약 630,000개의 데이터를 구했으며 총 850,000개의 SFT Dataset을 구성하였다.

Training details

LLM을 Fine-tuning하기 위해 Prompt Text 앞에는 <human>을, 응답에는 <assistant>를 헤더로 추가하였다.

Hyper parameter

 

옵티마이저(optimizer): AdamW

  • β₁: 0.9
  • β₂: 0.95
  • ϵ: 1e−8

시퀀스 길이(sequence_length): 4096

배치 크기(batch_size): 128

에포크 수(epochs): 3

총 샘플 수(total_samples): 50만 개 이상

학습률 스케줄링(learning_rate schedule): 초기 1,500 스텝에 걸쳐 최대 1e−5까지 점진적으로 증가

가중치 감쇠(weight_decay): 0.1

드롭아웃 비율(dropout_rate): 0.1

그래디언트 클리핑 임계값(gradient_clipping): 1.0

 

 

Evaluation

5.1 Standard Evaluation

LLM을 효과적으로 평가하기 위해, 우리는 표준 평가 세트를 시험 및 전문 지식과 언어 이해 및 일반 지식으로 분류한다. 비교를 위해 10B ~ 20B 사이의 가장 유명한 LLM을 선택하고 일관성을 보장하기 위해 OpenCompass와 LM-Eval-Harness와 같은 오픈소스에서 비교를 한다.

Professional Knowledge and Reasoning

대부분의 벤치마크에서 뛰어나지만, Gaokao 평가에서는 Qwen-14B에 약간 뒤처다. 이러한 결과는 Orion-14B가 복잡하고 전문적인 작업에 대해 매우 경쟁력 있고 강력한 모델임을 보여준다.

 

Language Understanding and Common Knowledge

HellaSwag, PIQA, WSC 작업에서는 Qwen-14B와 InternLM-20B에 약간 뒤처진다. 전반적으로, 결과는 Orion-14B가 다양한 자연어 이해 벤치마크에서 강력한 능력을 갖추고 있음을 나타낸다.

 

 

OpenCompass 리더보드에서는 평가 세트가 다섯 가지 카테고리로 구성되어 있다. 각 카테고리에 대한 요약된 결과는 Orion-14B는 평균 점수 64.4%로 가장 좋다. 특히, 시험, 언어, 이해, 추론을 포함한 네 가지 카테고리에서 다른 모델들을 능가하여 뛰어난 분석 및 문제 해결 능력을 나타낸다. 이러한 결과는 Orion-14B가 광범위한 인지 및 언어 작업에서 견고한 능력을 보유하고 있음을 시사한다.

 

5.2 Multilingual

훈련은 대부분이 중국어와 영어로 구성되어 있지만, 다국어 성능을 향상시키기 위해 한국어와 일본어도 추가했다. 영어와 중국어에 비해 일본어와 한국어의 양은 매우 적지만, 한국어와 일본어 성능도 매우 우수하며 결국 잘 아는 언어로 부터 지식이 효과적으로 전이되었음을 나타낸다.

일본어 벤치마크 데이터셋에서 좋은 성능을 나타냄 특히 34B 모델보다 대체적으로 좋은 성능을 나타낸다.

 

한국어 데이터셋에서도 좋은 성능을 나타낸다.

특히 34B 모델보다 대체적으로 좋은 성능을 나타낸다.

 

Fine-tuned Model Evaluations

사전 훈련된 기본 모델의 성능을 테스트하기 위해 표준 평가 데이터셋을 활용했다. 하지만 미세 조정된 모델의 성능 평가 방식은 기본 모델과 다르다. 이는 챗 모델이 주어진 프롬프트에 대한 응답을 생성하도록 설계되었다. 이는 특정 과제에 의존할 수 있다.

그래서 Chat 모델을 종합적으로 평가하기 위해 3가지 방식을 사용한다.

  1. standard evaluation sets, similar to those used in the base-model evaluation
  2. subjective datasets based on GPT-4 scoring
  3. human evaluation

 

standard evaluation sets, similar to those used in the base-model evaluation

기본 모델에 비해 CMMLU와 MMLU에서 약간의 성능 저하가 있다. 이는 평가 프롬프트가 챗 모델보다 기본 모델에 더 적합하게 설계되었기 때문일 가능성이기 때문에 주관적인 평가지표와 함꼐 평가를 한다.

 

subjective datasets based on GPT-4 scoring

표 13표 14에 제시된 결과는 주관적 평가에서 Orion-14B-Chat의 성능을 강조한다. MT-Bench 평가에서 Orion-14B-Chat은 다른 모델들을 현저히 능가하여, 첫 번째 턴과 두 번째 턴 평가에서 모두 최고 점수를 기록하며 평균 점수는 7.37에 달했다. Orion-14B-Chat이 중국어 이해, 작문, 역할 수행, 전문 과제에서 특히 뛰어난 성과를 보였습니다. 이러한 결과는 다양한 대화 맥락에서 경쟁력 있는 성능을 입증한다.

human evaluation

 "승리(Win)", "무승부(Tie)", "패배(Loss)"로 평가합니다. 총 14명의 사람이 3,562개의 질문을 평가했다.비교 모델은 Orion-14B-Chat, Qwen-14B-Chat, Baichuan2-13B-Chat이다. 표 15에 나타난 바와 같이, Orion-14B-Chat은 가장 많은 "승리" 표를 받아 인간 평가에서 뛰어난 성과를 입증한다.

 

Extension Work

특정 작업을 해결하기 위해 여러가지 전문화한 모델을 개발하였다. 그 모델들은 다음과 같다.

 

  • Orion-14B-Long: 이 모델은 200,000 토큰 이상의 긴 문맥 길이에 최적화되어 있으며, 긴 문맥 평가 세트에서 독점 모델과 유사한 성능을 보여준다 (Bai et al., 2023b; Dacheng Li and Zhang, 2023).
  • Orion-14B-INT4: 4비트 정수 가중치를 사용하는 양자화된 모델이다. 모델 크기를 70% 줄이고 추론 속도를 30% 증가시키면서도 성능 저하를 단 1%만 발생시킨다.
  • Orion-14B-RAG: 맞춤형 검색 증강 생성 데이터셋으로 미세 조정된 챗 모델로, 검색 증강 생성 작업에서 뛰어난 성능을 달성했다.
  • Orion-14B-PlugIn: 플러그인 및 함수 호출 작업에 특화된 챗 모델로, LLM이 플러그인 및 함수 호출 시스템으로 작동하는 에이전트 관련 시나리오에 이상적이다.