Paper/Metric

[Metric Review] Distinct-n Review

Giliit 2024. 8. 22. 10:10
728x90
논문링크
https://arxiv.org/abs/1510.03055

오늘은 NLP 관련해서 Distinct-1/2/3 관련된 Metric에 대해 리뷰하려고 한다. 원래는 논문에서는 이와 관련하여 수식과 관련된 것이 작성되어 있을 줄 알았다. 하지만 Metric에 대한 수식이 아닌 Model에 대한 수식이다. 그래서 논문에 대한 리뷰를 하기에는 매우 옛날 지식이기 때문에 Metric에 대해서만 작성하려고 한다.

Distinct-N

Distinct-N 이 metric은 모델의 생성된 텍스트가 얼마나 다양하게 생성되는지를 측정하는 metric이다. 근데 정말 수식이 간단하다.

Distinct-1

유니그램에 대해 조사한다고 생각하면 된다.

만약 모델이 생성한 텍스트가 "I love apples. I love oranges."라고 하자.

  • 분모 : 총 단어 수는 6개이며, 각각은 "I", "love", "apples", "I", "love","oranges"
  • 분자 : 고유한 단어의 수는 4개이며, 각각은 "I", "love", "apples", "oranges"

따라서 Distinct-1 = 4/6 = 0.66

Distinct-2

바이그램에 대해 조사한다고 생각하면 된다.

만약 모델이 생성한 텍스트가 "I love apples. I love oranges."라고 하자.

  • 분모 : 총 바이그램의 수는 5이며, 각각은 "I love", "love apples", "I love", "love oranges"
  • 분자 : 고유한 바이그램은 3개이며, 각각은 "I love", "love apples", "love oranges"

따라서 Distinct-2 = 3/4 = 0.75