Metric 4

[Metric Review] Vector Extrema : Boostrapping Dialog Systems with Word Embeddings Review

논문링크https://www.cs.cmu.edu/~apparikh/nips2014ml-nlp/camera-ready/forgues_etal_mlnlp2014.pdfForgues et al., NeurIPS Workshop 2014IntroductionDialog System에서 두 가지 필수 구성 요소Automatic Speech Recognition(ASR)understand the text’s indent논문이 쓰일 시점을 기준으로 음성인식은 매우 높은 정확도이지만, 언어 이해는 상대적으로 어려운 문제로 남아있다.이 논문에서는 single utterance와 같은 짧은 텍스트의 의도를 식별하는 것을 목표로 하는 Classification Task 목표로 한다.대규모 데이터를 이용해 학습한 모델은 높은..

Paper/Metric 2024.08.13

[Metric Review] ROUGE Metric 분석

논문 링크https://aclanthology.org/W04-1013/  ROUGERouge은 Recall-Oriented Understudy for Gisting Evaluation의 약자이다. ROUGE는 사람이 만든 참조 요약과 컴퓨터가 생성한 요약 사이의 일치 정도를 측정한다. 이 논문은 ROUGE가 포함된 네 가지 다른 ROUGE 메트릭, 즉 ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S를 소개합니다. 각 메트릭은 요약의 다른 측면을 평가한다.ROUGE-N: 이 메트릭은 N-gram 기반으로 평가한다. 이는 요약에서 사용된 단어의 연속적인 나열이 참조 요약과 얼마나 일치하는지를 측정하여, 텍스트의 어휘적 정확성을 평가한다. N이 클수록, 문맥적 일관성과 정확성을 더 자세히 분석한..

Paper/Metric 2024.07.18

[Metric Review] CIDEr Metric 분석

논문링크 https://arxiv.org/pdf/1411.5726.pdf Introduction 논문이 나온 시점에서 이미지에 설명하는 문제에 대해 이미지를 인간과 같은 방식으로 설명을 생성하는 관심이 생기고 있었다. 그 와 관련하여 Automatic evalution으로 Sentence evalution은 아직 어려운 분야였다. 논문 이전의 Automatic evalution matric은 Precision 기반의 BLEU와 Recall 기반의 ROUGE가 있었다. 하지만 이러한 Metric은 Human evalution과 Automatic evalution의 Pearson correlation가 낮다고 표시된다. 이후 METEOR가 나오면서, 더 나은 Correlation을 보여주고 있지만 이미지 설..

Paper/Metric 2024.04.01

[Metric Review] BLEU Metric 분석

논문링크 https://aclanthology.org/P02-1040.pdf Introduction Machin Translation(MT)에 대해 사람의 평가는 광범위하며 비용이 많이 발생한다. 심지어 사람이 MT의 성능을 파악하는데 몇 달이 걸릴 수 있으며 매우 큰 비용의 노동력을 필요로 한다. 그래서 저자는 다음과 같은 특징을 가진 automatic machine translation evaluation 방법을 제안한다. Quick Inexpensive Language-independent that correlates highly with human evaluation Little marginal cost per run 다음과 같은 특징을 통해 BLEU Metric이 Human Evaluation을..

Paper/Metric 2024.03.31