Anonymous
紫红色(公制)
Post
by Anonymous » 03 Jan 2026, 06:46
'''MAUVE''' 是自动评估开放式自然语言生成|文本生成质量的指标。它由华盛顿大学、艾伦人工智能研究所和斯坦福大学的研究人员开发,在 NeurIPS 2021 上首次推出,并获得了杰出论文奖。
与早期的 BLEU 或 ROUGE(度量)|ROUGE 等依赖于候选和参考之间的 n-gram 重叠的度量不同,MAUVE 测量生成文本的分布与高维嵌入空间中人类编写的文本的分布的接近程度。
==背景==
众所周知,评估开放式生成(例如故事生成或长篇对话)非常困难。传统的衡量标准会惩罚“创造性”但与单个参考文本的有效偏差。此外,神经语言模型经常遇到重复循环或缺乏 n-gram 指标无法捕获的远程一致性等问题。
MAUVE 旨在通过将文本评估视为两种概率分布的比较来更符合人类对“质量”和“多样性”的判断:人类编写文本的分布 (P) 与机器生成文本的分布 (Q)。
==方法==
MAUVE 的计算涉及三个主要步骤:
# 嵌入:使用预先训练的变压器(机器学习模型)|变压器模型将大批量的人类和机器生成的文本映射到向量空间。
# 量化:使用 k 均值聚类将连续嵌入聚类为一组有限的 k 码字,以形成离散分布。
# 散度边界:该指标使用 Kullback-Leibler 散度计算两个分布之间的 I 类和 II 类错误(精度和召回率)之间的权衡。
===数学定义===
MAUVE 基于分歧边界下的区域。对于混合参数 \lambda\in(0, 1),混合分布定义为:
: R_\lambda = \lambda P + \left(1 - \lambda\right) Q
边界由点 (R_1, R_2) 组成,定义如下:
:
\开始{对齐}
R_1(\lambda) &= \exp\left(-\text{KL}(P \Vert R_\lambda)\right)\\
R_2(\lambda) &= \exp\left(-\text{KL}(Q \Vert R_\lambda)\right)
\end{对齐}
其中 \text{KL}() 指的是 Kullback-Leibler 散度。 MAUVE 是该曲线的积分,提供 0 到 1 之间的单个标量值。较高的 MAUVE 分数表示模型分布 Q 与人类分布 P 更相似。
==与其他指标比较==
==优点==
与早期指标相比,MAUVE 在网络文本生成等任务中显示出与人类判断的更高相关性。它有效地捕获了模型陷入循环的“自我重复”问题。
==限制==
该指标需要大量样本(通常超过 1000 代)才能提供稳定的分布估计。它的计算成本也很高,因为它需要运行大型模型来生成嵌入并执行聚类。
* [https://github.com/krishnap25/mauve GitHub 上的官方实现]
人工智能
语言建模
自然语言处理
机器学习
1767394012
Anonymous
[h4] '''MAUVE''' 是自动评估开放式自然语言生成|文本生成质量的指标。它由华盛顿大学、艾伦人工智能研究所和斯坦福大学的研究人员开发,在 NeurIPS 2021 上首次推出,并获得了杰出论文奖。 与早期的 BLEU 或 ROUGE(度量)|ROUGE 等依赖于候选和参考之间的 n-gram 重叠的度量不同,MAUVE 测量生成文本的分布与高维嵌入空间中人类编写的文本的分布的接近程度。 ==背景== 众所周知,评估开放式生成(例如故事生成或长篇对话)非常困难。传统的衡量标准会惩罚“创造性”但与单个参考文本的有效偏差。此外,神经语言模型经常遇到重复循环或缺乏 n-gram 指标无法捕获的远程一致性等问题。 MAUVE 旨在通过将文本评估视为两种概率分布的比较来更符合人类对“质量”和“多样性”的判断:人类编写文本的分布 (P) 与机器生成文本的分布 (Q)。 ==方法== MAUVE 的计算涉及三个主要步骤: # 嵌入:使用预先训练的变压器(机器学习模型)|变压器模型将大批量的人类和机器生成的文本映射到向量空间。 # 量化:使用 k 均值聚类将连续嵌入聚类为一组有限的 k 码字,以形成离散分布。 # 散度边界:该指标使用 Kullback-Leibler 散度计算两个分布之间的 I 类和 II 类错误(精度和召回率)之间的权衡。 ===数学定义=== MAUVE 基于分歧边界下的区域。对于混合参数 \lambda\in(0, 1),混合分布定义为: : R_\lambda = \lambda P + \left(1 - \lambda\right) Q 边界由点 (R_1, R_2) 组成,定义如下: : \开始{对齐} R_1(\lambda) &= \exp\left(-\text{KL}(P \Vert R_\lambda)\right)\\ R_2(\lambda) &= \exp\left(-\text{KL}(Q \Vert R_\lambda)\right) \end{对齐} 其中 \text{KL}() 指的是 Kullback-Leibler 散度。 MAUVE 是该曲线的积分,提供 0 到 1 之间的单个标量值。较高的 MAUVE 分数表示模型分布 Q 与人类分布 P 更相似。 ==与其他指标比较== ==优点== 与早期指标相比,MAUVE 在网络文本生成等任务中显示出与人类判断的更高相关性。它有效地捕获了模型陷入循环的“自我重复”问题。 ==限制== 该指标需要大量样本(通常超过 1000 代)才能提供稳定的分布估计。它的计算成本也很高,因为它需要运行大型模型来生成嵌入并执行聚类。 * [https://github.com/krishnap25/mauve GitHub 上的官方实现] 人工智能 语言建模 自然语言处理 机器学习 [/h4]