Paper/Metric 6

[Metric Review] Distinct-n Review

논문링크https://arxiv.org/abs/1510.03055오늘은 NLP 관련해서 Distinct-1/2/3 관련된 Metric에 대해 리뷰하려고 한다. 원래는 논문에서는 이와 관련하여 수식과 관련된 것이 작성되어 있을 줄 알았다. 하지만 Metric에 대한 수식이 아닌 Model에 대한 수식이다. 그래서 논문에 대한 리뷰를 하기에는 매우 옛날 지식이기 때문에 Metric에 대해서만 작성하려고 한다.Distinct-NDistinct-N 이 metric은 모델의 생성된 텍스트가 얼마나 다양하게 생성되는지를 측정하는 metric이다. 근데 정말 수식이 간단하다.Distinct-1유니그램에 대해 조사한다고 생각하면 된다.만약 모델이 생성한 텍스트가 "I love apples. I love oranges...

Paper/Metric 2024.08.22

[Metric Review] Vector Extrema : Boostrapping Dialog Systems with Word Embeddings Review

논문링크https://www.cs.cmu.edu/~apparikh/nips2014ml-nlp/camera-ready/forgues_etal_mlnlp2014.pdfForgues et al., NeurIPS Workshop 2014IntroductionDialog System에서 두 가지 필수 구성 요소Automatic Speech Recognition(ASR)understand the text’s indent논문이 쓰일 시점을 기준으로 음성인식은 매우 높은 정확도이지만, 언어 이해는 상대적으로 어려운 문제로 남아있다.이 논문에서는 single utterance와 같은 짧은 텍스트의 의도를 식별하는 것을 목표로 하는 Classification Task 목표로 한다.대규모 데이터를 이용해 학습한 모델은 높은..

Paper/Metric 2024.08.13

[Metric Review] ROUGE Metric 분석

논문 링크https://aclanthology.org/W04-1013/  ROUGERouge은 Recall-Oriented Understudy for Gisting Evaluation의 약자이다. ROUGE는 사람이 만든 참조 요약과 컴퓨터가 생성한 요약 사이의 일치 정도를 측정한다. 이 논문은 ROUGE가 포함된 네 가지 다른 ROUGE 메트릭, 즉 ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S를 소개합니다. 각 메트릭은 요약의 다른 측면을 평가한다.ROUGE-N: 이 메트릭은 N-gram 기반으로 평가한다. 이는 요약에서 사용된 단어의 연속적인 나열이 참조 요약과 얼마나 일치하는지를 측정하여, 텍스트의 어휘적 정확성을 평가한다. N이 클수록, 문맥적 일관성과 정확성을 더 자세히 분석한..

Paper/Metric 2024.07.18

[Metric Review] CIDEr Metric 분석

논문링크 https://arxiv.org/pdf/1411.5726.pdf Introduction 논문이 나온 시점에서 이미지에 설명하는 문제에 대해 이미지를 인간과 같은 방식으로 설명을 생성하는 관심이 생기고 있었다. 그 와 관련하여 Automatic evalution으로 Sentence evalution은 아직 어려운 분야였다. 논문 이전의 Automatic evalution matric은 Precision 기반의 BLEU와 Recall 기반의 ROUGE가 있었다. 하지만 이러한 Metric은 Human evalution과 Automatic evalution의 Pearson correlation가 낮다고 표시된다. 이후 METEOR가 나오면서, 더 나은 Correlation을 보여주고 있지만 이미지 설..

Paper/Metric 2024.04.01

[Metric Review] BLEU Metric 분석

논문링크 https://aclanthology.org/P02-1040.pdf Introduction Machin Translation(MT)에 대해 사람의 평가는 광범위하며 비용이 많이 발생한다. 심지어 사람이 MT의 성능을 파악하는데 몇 달이 걸릴 수 있으며 매우 큰 비용의 노동력을 필요로 한다. 그래서 저자는 다음과 같은 특징을 가진 automatic machine translation evaluation 방법을 제안한다. Quick Inexpensive Language-independent that correlates highly with human evaluation Little marginal cost per run 다음과 같은 특징을 통해 BLEU Metric이 Human Evaluation을..

Paper/Metric 2024.03.31

[Metric review] METEOR Metric 분석

논문 링크 https://aclanthology.org/W05-0909.pdf Introduction 논문이 써질 시점을 기준으로 Machin Translation(MT) 평가에 대해 Automatic Metric이 상당한 주목을 받게 되었다. 그 이유는 MT System에 대해 Metric을 사용하여 Evalution 하는 것이 두 개 국어를 할 줄 아는 사람이 Evaluation을 하는 것보다 훨씬 바르고 쉽고 저렴하기에 MT Metric에 대해 관심이 높아졌다. 하지만 여러 수식이 MT Evalution Metric이 되는 것은 아니다. 다음은 Metric에 대한 조건이다. Metric의 조건 인간의 평가와 매우 높은 상관관계를 가져야 함 MT 품질에 대해 민감해야 함 Consistent (비슷한 ..

Paper/Metric 2024.03.29