主要应用于machine translation。BLEU scores
核心思想
比较候选译文和参考译文里的n-gram的重合程度,重合程度越高就认为译文质量越高。unigram用于衡量单词翻译的准确性,高阶n-gram用于衡量句子翻译的流畅性。实践中,通常是N = 1~4,然后取加权平均。
计算公式
$$
BLEU = BP \cdot \exp(\sum_{n = 1}^N w_n \log p_n)
$$
其中$n$表示n-gram,
BP(brevity penalty)为短句子惩罚因子,$r$表示最短的参考翻译长度,$c$表示候选翻译长度。当$c > r$时,$BP = 1$, 即不做惩罚;当$c \leq r$时,$BP = \exp(1-r/c)$.
$$
p_n = \frac{\sum_{C \in {Candidates}}\sum_{n-gram \in C} Count_{clip}(n-gram)}{\sum_{C' \in {Candidates} }\sum_{n-gram \in C'} Count(n-gram)}
$$
主要特点
- n-gram共现统计
- Based on precision
缺点
- Only based on precision, not including recall
- 存在常用词干扰(可用截断的方法解决)
- 短句得分较高,即使有了BP
主要应用于text summarization。
核心思想
大致分为四种:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常用的是前两种(-N与-L)。
- ROUGE-N中的“N”指的是N-gram,其计算方式与BLEU类似,只是BLEU基于精确率,而ROUGE基于召回率。
- ROUGE-L中的“L”指的是Longest Common Subsequence,计算的是候选摘要与参考摘要的最长公共子序列长度,长度越长,得分越高,基于F值。
计算公式
$$
ROUGE-N=\frac{\sum_{S \in {reference summaries}}\sum_{n-gram \in S}Count_{match} (n-gram)}{\sum_{S \in {reference summaries}}\sum_{n-gram \in S}Count (n-gram)}
$$
其中,
Normalization在DL中就是“通过把一部分不重要的复杂信息损失掉”,以此来降低拟合难度以及过拟合的风险,从而加速了模型的收敛。降低了各维度数据的方差,让分布更稳定。
不同Normalization的区别是操作的信息维度不同,即选择损失信息的维度不同。目前在NLP领域中使用LN主要是因为BN效果很差。2020年的一篇工作中有提到 powernorm,即对BN作一定改动,效果可以超越LN。
Sample 1: x1, x2, x3, ...
Sample 2: y1, y2, y3, ...
Sample 3: z1, z2, z3, ...
Batch Normalization: x1, y1, z1
Layer Normalization: x1, x2, x3