NLP-notes/Basic.md at main · BQZic/NLP-notes

Evaluation Metrics

知乎

BLEU: Bilingual Evaluaton Understudy 双语评估辅助工具

主要应用于machine translation。BLEU scores

核心思想

比较候选译文和参考译文里的n-gram的重合程度，重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性，高阶n-gram用于衡量句子翻译的流畅性。实践中，通常是N = 1～4，然后取加权平均。

计算公式

$$ BLEU = BP \cdot \exp(\sum_{n = 1}^N w_n \log p_n) $$ 其中$n$表示n-gram, $w_n$表示n-gram的权重。

BP(brevity penalty)为短句子惩罚因子，$r$表示最短的参考翻译长度，$c$表示候选翻译长度。当$c > r$时，$BP = 1$, 即不做惩罚；当$c \leq r$时，$BP = \exp(1-r/c)$.

$p_n$表示n-gram的覆盖率，具体计算方式为：

$$ p_n = \frac{\sum_{C \in {Candidates}}\sum_{n-gram \in C} Count_{clip}(n-gram)}{\sum_{C' \in {Candidates} }\sum_{n-gram \in C'} Count(n-gram)} $$ $Count_{clip}$是截断计数，其计数方式为：将一个n-gram在候选翻译中出现的次数，与在各个参考翻译中出现的最大值进行比较，取最小的那一个。

主要特点

n-gram共现统计
Based on precision

缺点

Only based on precision, not including recall
存在常用词干扰（可用截断的方法解决）
短句得分较高，即使有了BP

ROUGE: Recall-Oriented Understudy for Gisting Evaluation，面向召回率的摘要评估辅助工具

主要应用于text summarization。

核心思想

大致分为四种：ROUGE-N，ROUGE-L，ROUGE-W，ROUGE-S。常用的是前两种（-N与-L）。

ROUGE-N中的“N”指的是N-gram，其计算方式与BLEU类似，只是BLEU基于精确率，而ROUGE基于召回率。
ROUGE-L中的“L”指的是Longest Common Subsequence，计算的是候选摘要与参考摘要的最长公共子序列长度，长度越长，得分越高，基于F值。

计算公式

$$ ROUGE-N=\frac{\sum_{S \in {reference summaries}}\sum_{n-gram \in S}Count_{match} (n-gram)}{\sum_{S \in {reference summaries}}\sum_{n-gram \in S}Count (n-gram)} $$ 其中， $n$ 表示n-gram， $Count (n-gram)$ 表示一个n-gram的出现次数， $Count_{match} (n-gram)$ 表示一个n-gram的共现次数。

Normalization

Normalization在DL中就是“通过把一部分不重要的复杂信息损失掉”，以此来降低拟合难度以及过拟合的风险，从而加速了模型的收敛。降低了各维度数据的方差，让分布更稳定。

不同Normalization的区别是操作的信息维度不同，即选择损失信息的维度不同。目前在NLP领域中使用LN主要是因为BN效果很差。2020年的一篇工作中有提到 powernorm，即对BN作一定改动，效果可以超越LN。

Sample 1: x1, x2, x3, ...
Sample 2: y1, y2, y3, ...
Sample 3: z1, z2, z3, ...

Batch Normalization: x1, y1, z1

Layer Normalization: x1, x2, x3

Cross Entropy Loss vs KL divergence

Optimizer

Medium Post

Batch Size

zhihu

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Evaluation Metrics

BLEU: Bilingual Evaluaton Understudy 双语评估辅助工具

ROUGE: Recall-Oriented Understudy for Gisting Evaluation，面向召回率的摘要评估辅助工具

Normalization

Cross Entropy Loss vs KL divergence

Optimizer

Batch Size

FilesExpand file tree

Basic.md

Latest commit

History

Basic.md

File metadata and controls

Evaluation Metrics

BLEU: Bilingual Evaluaton Understudy 双语评估辅助工具

ROUGE: Recall-Oriented Understudy for Gisting Evaluation，面向召回率的摘要评估辅助工具

Normalization

Cross Entropy Loss vs KL divergence

Optimizer

Batch Size