北大王选实验室 | 摘要已死？

深度学习自然语言处理原创
作者：Winnie

最新一篇研究里探索了大型语言模型（LLMs）在文本摘要这一领域的表现。他们设计了新的数据集，通过一系列人类评估实验评估LLMs在不同摘要任务中的表现。

惊人的是，大多数人类评估者实际更倾向于选择LLM生成的摘要，甚至超过了参考摘要（人工编写）的标准。

这个结果意味着，LLMs的介入可能会使许多传统的文本摘要工作（在特定的数据集上微调）变得多余。

当然，我们也看到了未来的发展方向，包括创建更高质量的评估数据集和发展更可靠的评估方法来提升LLM的表现。

让我们一起深入了解一下这项研究吧！

Paper: Summarization is (Almost) Dead
Link: https://arxiv.org/pdf/2309.09558.pdf

进NLP群—>加入NLP交流群

数据集

为了避免LLMs在训练时“见过”数据的情况，研究者们采用了最新的数据来构建专门用于每个摘要任务的人类评估数据集。数据集一共包括5个任务，每个任务都包含了50个样本。

在构建用于单一新闻、多新闻和对话摘要任务的数据集时，他们借鉴了CNN/DailyMail, Hermann Multi-News和Mediasum等现有数据集的构建方法。例如，他们从DailyMail网站中选择最新的资讯来制作数据集。

在跨语言摘要任务中，他们先使用Google Translate将参考摘要从英语翻译成中文，再进行后编辑来确保翻译的准确性。

对于代码摘要任务，研究团队借鉴了Bahrami等人在2021年的方法来创建数据集，源文件选自Go语言程序。

模型

研究团队选择了GPT-3、GPT-3.5和GPT-4这三款模型。此外，他们还选用了1-2款已在特定任务数据集上微调过的较小模型。例如，在单一新闻任务中选择了BART和T5，而在多新闻任务中则选用了Pegasus和BART。

实验配置

为了全面评估LLMs在各种摘要任务中的性能，他们进行了人类评估实验，聘请了两名注释者来完成这项任务。每名注释者负责50个问题，涉及成对比较不同系统生成的摘要。

在评估过程中，注释者不仅需要比较不同摘要系统生成的摘要，还要基于源文章进行评估。为了衡量注释者之间的一致性，他们计算了Cohen's kappa系数，得出了0.558的结果，表明注释者之间有可接受的一致性。

实验结果

摘要的整体质量比较

在这个实验中，通过人类评估员来比较不同摘要的整体质量，采用WinRateNM评估指标，这是一个表明系统M相对于系统N的优先程度的指标。

在所有任务中，LLMs生成的摘要都超越了人类生成的摘要和经过微调的模型生成的摘要。

为什么LLMs能够超越人类编写的摘要呢？初步观察表明，LLM生成的摘要展示了高度的流畅性和连贯性。但是，LLM摘要和人类编写的摘要之间的相对事实一致性仍然不确定。

摘要的事实一致性比较

在第二个实验中，他们进一步探讨了摘要的事实一致性问题，尤其是分析了LLMs和人类生成的摘要中的“句子级幻觉”。他们发现人类生成的摘要和GPT-4生成的摘要存在相似或更高的幻觉数量。

他们将这些幻觉分为两类：内在幻觉和外在幻觉。内在幻觉指的是摘要中的事实信息与源文本之间的不一致，而外在幻觉是指摘要包含源文本中没有的某些事实信息。他们发现发现人类生成的摘要中外在幻觉的比例较高，特别是在多新闻和代码摘要任务中。

对比分析

人类参考摘要 vs. LLM摘要

人类编写的参考摘要相比LLM摘要存在一个特定问题，即缺乏流畅性。人类编写的参考摘要有时信息不完整，存在缺陷。另一个问题是人类编写的参考摘要存在幻觉。

微调模型生成的摘要 vs. LLM摘要

与LLM摘要相比，我们发现微调模型生成的摘要往往有固定和僵硬的长度，而LLMs能够根据输入的信息量调整输出长度。此外，当输入包含多个主题时，微调模型生成的摘要对这些主题的覆盖较低，而LLMs在生成摘要时可以捕获所有的主题。

结论与未来研究方向

人工评估结果表明，LLMs生成的摘要的质量在许多数据集中超越了参考摘要。可以预见，随着未来LLMs的不断改进，它们的能力将进一步增强。以前的摘要方法通常是为特定的类别、领域或语言量身定制的，从而导致其通用性有限，其重要性也逐渐减弱。然而，作者认为以下方向依旧值得探索：

摘要数据集

数据集的角色从模型训练转向测试，这要求更高质量的参考摘要。之前生成的数据集将逐渐被淘汰，未来的参考摘要将需要人类专家的注释。

目前大多数的摘要数据集都是英文的，侧重于新闻文章、科学文章或维基百科。源文档相对较短。为了全面评估LLMs的摘要能力，有必要纳入其他多元化的数据类型和其他语言，尤其是那些资源较少的语言。此外，还需要在数据集中包含更长的文档，如书籍，以便进行全面的评估。

定制化摘要

通过LLMs来实现根据个体用户的偏好、阅读历史或专业水平来定制摘要的可能性。这意味着可以将摘要过程个性化，以更好地适应每个用户的需求和背景。

实时摘要

实时摘要是另一个待发展的领域，它可以在各种场合发挥关键作用，比如实时流、股票市场波动或社交媒体监控。研究可以集中于提高LLMs的及时性和效率，以更好地服务于这一需求。

交互式摘要

作者强调了开发能与用户互动、在摘要过程中征求澄清或反馈的模型的重要性。这不仅可以提高摘要准确性，还可以增强其相关性。

摘要评估

已过时的评估指标如ROUGE已不再适应摘要领域的发展。近期研究表明，未来的自动摘要评估技术有望依赖于LLMs来实现。同时，在摘要评估方面需要更多地考虑摘要的实际应用和实用性，而不仅仅是基于某些指标来评估摘要的质量。

此外，未来的摘要评估应该更侧重于外部评估，即通过将摘要用作另一个任务（如问答或决策制定任务）的输入来衡量其有效性，以验证是否保留了关键信息。

进NLP群—>加入NLP交流群