北大王选实验室 | 摘要已死?

2023-09-21 11:09:55

07ed8cf11a9d4261e8e9c7800b655121.png

深度学习自然语言处理 原创
作者:Winnie

最新一篇研究里探索了大型语言模型(LLMs)在文本摘要这一领域的表现。他们设计了新的数据集,通过一系列人类评估实验评估LLMs在不同摘要任务中的表现。

惊人的是,大多数人类评估者实际更倾向于选择LLM生成的摘要,甚至超过了参考摘要(人工编写)的标准。

这个结果意味着,LLMs的介入可能会使许多传统的文本摘要工作(在特定的数据集上微调)变得多余。

当然,我们也看到了未来的发展方向,包括创建更高质量的评估数据集和发展更可靠的评估方法来提升LLM的表现。

让我们一起深入了解一下这项研究吧!

dac81f6a8964300cec088595d46a88b6.png

Paper: Summarization is (Almost) Dead
Link: https://arxiv.org/pdf/2309.09558.pdf

进NLP群—>加入NLP交流群

数据集

为了避免LLMs在训练时“见过”数据的情况,研究者们采用了最新的数据来构建专门用于每个摘要任务的人类评估数据集。数据集一共包括5个任务,每个任务都包含了50个样本。

在构建用于单一新闻、多新闻和对话摘要任务的数据集时,他们借鉴了CNN/DailyMail, Hermann Multi-News和Mediasum等现有数据集的构建方法。例如,他们从DailyMail网站中选择最新的资讯来制作数据集。

在跨语言摘要任务中,他们先使用Google Translate将参考摘要从英语翻译成中文,再进行后编辑来确保翻译的准确性。

对于代码摘要任务,研究团队借鉴了Bahrami等人在2021年的方法来创建数据集,源文件选自Go语言程序。

模型

研究团队选择了GPT-3、GPT-3.5和GPT-4这三款模型。此外,他们还选用了1-2款已在特定任务数据集上微调过的较小模型。例如,在单一新闻任务中选择了BART和T5,而在多新闻任务中则选用了Pegasus和BART。

实验配置

为了全面评估LLMs在各种摘要任务中的性能,他们进行了人类评估实验,聘请了两名注释者来完成这项任务。每名注释者负责50个问题,涉及成对比较不同系统生成的摘要。

在评估过程中,注释者不仅需要比较不同摘要系统生成的摘要,还要基于源文章进行评估。为了衡量注释者之间的一致性,他们计算了Cohen's kappa系数,得出了0.558的结果,表明注释者之间有可接受的一致性。

实验结果

摘要的整体质量比较

在这个实验中,通过人类评估员来比较不同摘要的整体质量,采用WinRateNM评估指标,这是一个表明系统M相对于系统N的优先程度的指标。

在所有任务中,LLMs生成的摘要都超越了人类生成的摘要和经过微调的模型生成的摘要。

为什么LLMs能够超越人类编写的摘要呢?初步观察表明,LLM生成的摘要展示了高度的流畅性和连贯性。但是,LLM摘要和人类编写的摘要之间的相对事实一致性仍然不确定。

e469ab001294af4a47c10583af6b824c.png

摘要的事实一致性比较

在第二个实验中,他们进一步探讨了摘要的事实一致性问题,尤其是分析了LLMs和人类生成的摘要中的“句子级幻觉”。他们发现人类生成的摘要和GPT-4生成的摘要存在相似或更高的幻觉数量。

74ccc9d6317c4848a718899c26a8c54e.png

他们将这些幻觉分为两类:内在幻觉和外在幻觉。内在幻觉指的是摘要中的事实信息与源文本之间的不一致,而外在幻觉是指摘要包含源文本中没有的某些事实信息。他们发现发现人类生成的摘要中外在幻觉的比例较高,特别是在多新闻和代码摘要任务中。

4d5ca91bbead12cc329c9e7c385a8ecb.png

对比分析

人类参考摘要 vs. LLM摘要

人类编写的参考摘要相比LLM摘要存在一个特定问题,即缺乏流畅性。人类编写的参考摘要有时信息不完整,存在缺陷。另一个问题是人类编写的参考摘要存在幻觉。

微调模型生成的摘要 vs. LLM摘要

与LLM摘要相比,我们发现微调模型生成的摘要往往有固定和僵硬的长度,而LLMs能够根据输入的信息量调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对这些主题的覆盖较低,而LLMs在生成摘要时可以捕获所有的主题。

结论与未来研究方向

人工评估结果表明,LLMs生成的摘要的质量在许多数据集中超越了参考摘要。可以预见,随着未来LLMs的不断改进,它们的能力将进一步增强。以前的摘要方法通常是为特定的类别、领域或语言量身定制的,从而导致其通用性有限,其重要性也逐渐减弱。然而,作者认为以下方向依旧值得探索:

摘要数据集

数据集的角色从模型训练转向测试,这要求更高质量的参考摘要。之前生成的数据集将逐渐被淘汰,未来的参考摘要将需要人类专家的注释。

目前大多数的摘要数据集都是英文的,侧重于新闻文章、科学文章或维基百科。源文档相对较短。为了全面评估LLMs的摘要能力,有必要纳入其他多元化的数据类型和其他语言,尤其是那些资源较少的语言。此外,还需要在数据集中包含更长的文档,如书籍,以便进行全面的评估。

定制化摘要

通过LLMs来实现根据个体用户的偏好、阅读历史或专业水平来定制摘要的可能性。这意味着可以将摘要过程个性化,以更好地适应每个用户的需求和背景。

实时摘要

实时摘要是另一个待发展的领域,它可以在各种场合发挥关键作用,比如实时流、股票市场波动或社交媒体监控。研究可以集中于提高LLMs的及时性和效率,以更好地服务于这一需求。

交互式摘要

作者强调了开发能与用户互动、在摘要过程中征求澄清或反馈的模型的重要性。这不仅可以提高摘要准确性,还可以增强其相关性。

摘要评估

已过时的评估指标如ROUGE已不再适应摘要领域的发展。近期研究表明,未来的自动摘要评估技术有望依赖于LLMs来实现。同时,在摘要评估方面需要更多地考虑摘要的实际应用和实用性,而不仅仅是基于某些指标来评估摘要的质量。

此外,未来的摘要评估应该更侧重于外部评估,即通过将摘要用作另一个任务(如问答或决策制定任务)的输入来衡量其有效性,以验证是否保留了关键信息。


进NLP群—>加入NLP交流群

更多推荐

华为开源自研AI框架昇思MindSpore应用案例:消噪的Diffusion扩散模型

目录一、环境准备1.进入ModelArts官网2.使用CodeLab体验Notebook实例二、案例实现构建Diffusion模型位置向量ResNet/ConvNeXT块Attention模块组归一化条件U-Net正向扩散数据准备与处理采样训练过程推理过程(从模型中采样)本文基于HuggingFace:TheAnnot

Homebrew国内和国外如何自动安装(Mac & Linux)

介绍Homebrew是一个适用于macOS和Linux操作系统的开源包管理器,它允许用户轻松安装、升级和管理各种软件包和工具。Homebrew的目标是简化软件包的安装和维护过程,使用户能够快速获取他们所需的工具和应用程序。安装1、官网推荐安装方式,如果在国内,要使用vpn才可以访问通在macOS上安装Homebrew:

react-route的路由

React-Router是一个基于React的强大路由库,它可以帮助我们在React应用中实现页面之间的跳转和路由管理。本文将详细介绍React-Router的路由功能、常用功能模块、路由传参和路由嵌套,并提供相关代码和解释。路由功能React-Router通过管理URL和组件的映射关系,可以帮助我们实现以下路由功能:

算法 缺失的第一个正整数-(哈希)

牛客网:BM53题目:无重复元素数组中未出现的最小的正整数思路:(1)使用单独hash表记录每个元素出现的次数,从1开始递增查询出现次数直到次数为0停止返回(2)将原数组作为hash表使用,处理好负数与0,将绝对值在N范围内的每个元素的绝对值减1定位到数组相关的下标将值置反(因为每个元素可能已被其他元素置为负数,所以需

时序预测 | MATLAB实现POA-CNN-GRU鹈鹕算法优化卷积门控循环单元时间序列预测

时序预测|MATLAB实现POA-CNN-GRU鹈鹕算法优化卷积门控循环单元时间序列预测目录时序预测|MATLAB实现POA-CNN-GRU鹈鹕算法优化卷积门控循环单元时间序列预测预测效果基本介绍程序设计参考资料预测效果基本介绍MATLAB实现POA-CNN-GRU鹈鹕算法优化卷积门控循环单元时间序列预测(完整源码和数

可以查看输入字数的手机备忘录软件用哪个?

在当下这个科技迅速发展的时代,我们常常需要依赖备忘录来记录重要的信息、灵感和待办事项。手机备忘录成为了我们随身携带的工具,但是你有没有遇到这样的情况:你写了很多内容,但不知道写了多少字?这个问题或许曾经困扰着你,但如今,有了敬业签,一切都变得方便了。敬业签不仅仅是一个备忘录应用,它是一款可以分类记录工作计划、学习笔记、

Linux 线程同步、互斥锁、避免死锁、条件变量

1.线程同步概述线程同步定义线程同步,指的是控制多线程间的相对执行顺序,从而在线程间正确、有序地共享数据,以下为线程同步常见使用场合。多线程执行的任务在顺序上存在依赖关系线程间共享数据只能同时被一个线程使用线程同步方法在实际项目中,经常使用的线程同步方法主要分为三种:互斥锁条件变量Posix信号量(包括有名信号量和无名

Unity中关于多线程的一些事

一.线程中不允许调用unity组件api解决方法:可以使用bool值变化并且在update中监测bool值变化来调用关于unity组件的API.二.打印并且将信息输出到list列表中多线程可能同时输出多条信息。输出字符串可以放入Queue队列中。队列可以被多线程插入。三.启用socket连接server在主线程中直接连

Qt5开发及实例V2.0-第十一章-Qt事件处理及实例

Qt5开发及实例V2.0-第十一章-Qt事件处理及实例第11章Qt5事件处理及实例11.1鼠标事件及实例11.2键盘事件及实例11.3事件过滤及实例本章相关例程源码下载1.Qt5开发及实例_CH1101.rar下载2.Qt5开发及实例_CH1102.rar下载3.Qt5开发及实例_CH1103.rar下载第11章Qt5

buuctf-[网鼎杯 2020 朱雀组]phpweb

1.打开网站,吓我一跳2.查看源代码,主要看到timezone,然后这个页面是五秒就会刷新一次一开始去搜了这个,但是没什么用3.使用bp抓包会发现有两个参数,应该是用func来执行p4.修改func和pfile_get_contents:把整个文件读入一个字符串中。该函数是用于把文件的内容读入到一个字符串中的首选方法。

排序算法(未完)

诸神缄默不语-个人CSDN博文目录打算做每个算法介绍详细的思路、算法流程(PPT)、代码实现的视频。准备慢慢做。文章目录0.排序算法的稳定性分析1.插入排序/直接插入排序1.1希尔排序2.简单选择排序3.堆排序4.冒泡排序5.快速排序6.归并排序7.桶排序/箱排序8.基数排序/分配式排序/桶子法1.最低位优先(Leas

热文推荐