728x90
논문링크
https://arxiv.org/abs/1510.03055
오늘은 NLP 관련해서 Distinct-1/2/3 관련된 Metric에 대해 리뷰하려고 한다. 원래는 논문에서는 이와 관련하여 수식과 관련된 것이 작성되어 있을 줄 알았다. 하지만 Metric에 대한 수식이 아닌 Model에 대한 수식이다. 그래서 논문에 대한 리뷰를 하기에는 매우 옛날 지식이기 때문에 Metric에 대해서만 작성하려고 한다.
Distinct-N
Distinct-N 이 metric은 모델의 생성된 텍스트가 얼마나 다양하게 생성되는지를 측정하는 metric이다. 근데 정말 수식이 간단하다.
Distinct-1
유니그램에 대해 조사한다고 생각하면 된다.
만약 모델이 생성한 텍스트가 "I love apples. I love oranges."라고 하자.
- 분모 : 총 단어 수는 6개이며, 각각은 "I", "love", "apples", "I", "love","oranges"
- 분자 : 고유한 단어의 수는 4개이며, 각각은 "I", "love", "apples", "oranges"
따라서 Distinct-1 = 4/6 = 0.66
Distinct-2
바이그램에 대해 조사한다고 생각하면 된다.
만약 모델이 생성한 텍스트가 "I love apples. I love oranges."라고 하자.
- 분모 : 총 바이그램의 수는 5이며, 각각은 "I love", "love apples", "I love", "love oranges"
- 분자 : 고유한 바이그램은 3개이며, 각각은 "I love", "love apples", "love oranges"
따라서 Distinct-2 = 3/4 = 0.75
'Paper > Metric' 카테고리의 다른 글
[Metric Review] Vector Extrema : Boostrapping Dialog Systems with Word Embeddings Review (0) | 2024.08.13 |
---|---|
[Metric Review] ROUGE Metric 분석 (0) | 2024.07.18 |
[Metric Review] CIDEr Metric 분석 (0) | 2024.04.01 |
[Metric Review] BLEU Metric 분석 (0) | 2024.03.31 |
[Metric review] METEOR Metric 분석 (1) | 2024.03.29 |