微调大型语言模型(一):为什么要微调(Why finetune)?

2023-09-21 22:51:27

今天我们来学习Deeplearning.ai的在线课程 微调大型语言模型(一)的第一课:为什么要微调(Why finetune)。

我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月,那么如果我们向ChatGPT询问2022年以后发生的事情,它可能会产生“幻觉”从而给出错误的答案,再比如我们有一些关于企业的某些产品的业务数据,但是由于ChatGPT没有学习过这些数据,因此它也无法正确回答出关于这些产品的问题。为了扩大LLM的知识面,让LLM能够更好的学习并掌握新知识从而更好的为用户服务,因此我们需要对LLM进行微调(Finetuning)。

由于常见的开源LLM都有较大的体积,在微调LLM时它对机器的配置有较高的要求,通常要求机器有较大的内存和GPU显存,比如64 GB内存,32G GPU 显存等。因此一般的家用PC很难满足要求,所以我们一般会通过第三方的托管平台的API来实现对开源LLM进行访问和微调,由于本课程使用的是 lamini.ai 平台的API来实现对开源大模型Llama-2-7b模型的访问和微调,因此我们需要去lamini.ai 注册一个账号(可以通过gmail账号直接登录),然后获取免费赠送的Credits(用完后可购买)和 API Key

API Key 设置

我们首先需要在代码中设置 production.key,该key就是我们在注册账号时获取到的Activate API Tokens:

# pip install lamini
from llama import LLMEngine

llm = LLMEngine(
    id="example_llm",
    config={"production.key": "xxxxxxxxx"}
    )

比较微调与非微调模型

为了让大家更好的理解微调模型和非微调模型的差异,我们需要对两者产生的结果进行比较,也就是我们需要对两种模型提出相同的问题,然后比较它们各自产生的结果。

测试非微调模型

首先我们会对非微调模型Llama-2-7b-hf进行测试,我们会问它几个问题,然后观察它的回答,这里我们对Llama-2-7b-hf 提出这样一个问题:“告诉我如何训练我的狗学会坐下”,由于Llama-2模型目前并不支持中文,所以我们需要使用英语来进行提问:

from llama import BasicModelRunner

#加载非微调模型
non_finetuned = BasicModelRunner("meta-llama/Llama-2-7b-hf")

#问题:告诉我如何训练我的狗学会坐下
non_finetuned_output = non_finetuned("Tell me how to train my dog to sit")

print(non_finetuned_output)

从上面的结果中我们看到Llama-2-7b-hf并没有正确回答问题,它似乎是根据用户的问题,然后用用户的口气又编造了很多重复的问题,这样的回复看上去完全是文不对题,完全不符合要求。下面我们把llm的回复翻译成中文,这样便于大家更好的理解:

#问题:你觉得火星怎么样?
print(non_finetuned("What do you think of Mars?"))

#问题:Twitter的老板是谁?
print(non_finetuned("Who is the boss of Twitter?"))

 下面我们来模拟一个代理和客户之间的问题流程,首先代理问候客户->客户提问->代理回答->客户提问->(需要llm回答)

print(non_finetuned("""Agent: I'm here to help you with your Amazon deliver order.
Customer: I didn't get my item
Agent: I'm sorry to hear that. Which item was it?
Customer: the blanket
Agent:"""))

这里我们可以直观的感觉到Llama-2-7b-hf模型在回答用户问题时,往往会不停的重复用户的问题或者重复自己的回复,因此这样的模型完全不能正常的使用(感觉像患上了精神病)。

与微调模型进行比较

下面我们使用微调模型 Llama-2-7b-chat-hf 看看它如何来回答先前那些问题:

#加载微调模型Llama-2-7b-chat-hf
finetuned_model = BasicModelRunner("meta-llama/Llama-2-7b-chat-hf")

#问题:告诉我如何训练我的狗学会坐下
finetuned_output = finetuned_model("Tell me how to train my dog to sit")

print(finetuned_output)

从上面的结果看,微调模型Llama-2-7b-chat-hf似乎给出了非常正确合理的答案,我们将这个回答翻译成中文,这样方便大家更好的理解:

结果虽然符合我们的要求,但是美中不足的时在返回的结果中在文本的开头位置出现了和问题无关的内容,比如在答案的开头出现了“on command.” 这样的语句,为此我们可以在向LLM提出问题的时候,在问题的头尾两端的位置插入指令提示符合“[INST]”和“[/INST]”,这样就可以避免LLM返回的结果中出现和问题无关的内容:

print(finetuned_model("[INST]Tell me how to train my dog to sit[/INST]"))

从上面的结果中我们看到llm已经过滤掉了和问题无关的内容比如:“on command.”, 但是我们也发现Llama-2-7b-chat-hf回答的结果似乎并不完整,因为第7点的内容并没有出现,这可能是因为llm的tokens数量限制所导致的,这有待后续进一步验证。

 下面我们给非微调模型Llama-2-7b-hf加上指令提示符看看会怎么样:

print(non_finetuned("[INST]Tell me how to train my dog to sit[/INST]"))

我们看到非微调模型Llama-2-7b-hf并不能识别指令提示符,它将指令提示符当成了问题组成部分,仍然在不停的重复着用户的问题。

接下来我们继续让微调模型Llama-2-7b-chat-hf回答之前剩下的问题:

#问题:你觉得火星怎么样?
print(finetuned_model("What do you think of Mars?"))

这里我们发现llm的回答又出现了内容不完整的情况,这可能是因为token数量超出限制,所以内容被截断了。

#问题:Twitter的老板是谁?
print(finetuned_model("Who is the boss of Twitter?"))

 从上面的结果来看,似乎LLM并不知道 伊隆·马斯克 已经收购了Twitter,而成为了Twitter的新老板,看来它的知识储备量仍然有限,下面我们加上指令提示符看看结果会怎么样:

#问题:Twitter的老板是谁?
print(finetuned_model("[INST]Who is the boss of Twitter?[/INST]"))

 从上面的结果我们看到虽然LLM仍然不知道伊隆·马斯克是Twitter的新老板,但是LLM的回答比之前没有加指令提示符的结果更加合理,逻辑更加清晰,内容更加丰富。

接下来我们继续后续的问题:

print(finetuned_model("""Agent: I'm here to help you with your Amazon deliver order.
Customer: I didn't get my item
Agent: I'm sorry to hear that. Which item was it?
Customer: the blanket
Agent:"""))

 从上面的结果中我们看到,LLM仍然模拟了多轮的agent-customer之间的对话,从内容上看感觉非常的真实,并且在最后LLM做了总结还评价了agent的表现(感觉是即当球员又当裁判)。

与ChatGPT的比较

接下来我们让ChatGPT来回答之前的第一个关于训练狗的问题,我们来看看ChatGPT的回答与微调模型Llama-2-7b-chat-hf的回答有什么不同:

chatgpt = BasicModelRunner("chat-gpt")

#问题:告诉我如何训练我的狗学会坐下
print(chatgpt("Tell me how to train my dog to sit"))

x

下面我们将ChatGPT的回答也翻译成中文,这样便于大家更好的理解:

 我们将与之前使用指令提示符的微调模型的结果做一下比对,下面是微调模型Llama-2-7b-chat-hf的结果:

我们发现微调模型Llama-2-7b-chat-hf的结果与ChatGPT3.5模型的结果从质量上来说已经非常的接近了,这似乎说明Llama-2-7b-chat-hf在某些应用场景下存在可以替代ChatGPT3.5的可能性。

总结

今天我们学习了如何使用lamini.ai的API接口来分析开源大模型Llama-2的原始版本和微调版本之间的差异,我们分别加载了原始模型和微调模型,对于相同的问题原始模型表现非常的糟糕,微调模型的表现相对较好,当我们使用指令提示符后微调模型表现的更加优秀,同时我们也发现了微调模型的输出结果不完整的情况, 这可能是由于token数量限制被截断造成的,这有待后续进一步验证,最后我们还比较了ChatGPT和Llama-2微调模型的结果,我们发现Llama-2微调模型的结果的质量非常接近ChatGPT,因此可以认为Llama-2是目前开源LLM中较为优秀的模型。

参考资料

https://lamini-ai.github.io/

 DLAI - Learning Platform Beta

更多推荐

图论第四天|127. 单词接龙、841. 钥匙和房间、463. 岛屿的周长

127.单词接龙★文档讲解:代码随想录-127.单词接龙状态:开始学习。(★:需要多次回顾并重点回顾)思路:本题需要解决两个问题:图中的线是如何连在一起的题目中并没有给出点与点之间的连线,而是要我们自己去连,条件是字符只能差一个,所以判断点与点之间的关系,要自己判断是不是差一个字符,如果差一个字符,那就是有链接。起点和

大数据快速入门开发环境篇:CentOS 7安装配置Hadoop大数据框架开发环境

注意:在开始安装之前,请确保您的CentOS7系统已经正确安装和配置了Java。Hadoop需要Java来运行。目录一、下载与配置Hadoop框架:1.1、下载与环境变量设置1.2、XML配置文件Hadoop设置1.3、格式化HDFS二、Hadoop3.x版本中hdfs命令的问题解决与配置方法2.1、问题描述与解决方法

时序预测 | MATLAB实现BO-BiGRU贝叶斯优化双向门控循环单元时间序列预测

时序预测|MATLAB实现BO-BiGRU贝叶斯优化双向门控循环单元时间序列预测目录时序预测|MATLAB实现BO-BiGRU贝叶斯优化双向门控循环单元时间序列预测效果一览基本介绍模型搭建程序设计参考资料效果一览基本介绍MATLAB实现BO-BiGRU贝叶斯优化双向门控循环单元时间序列预测。基于贝叶斯(bayes)优化

【Unity2D】提升tilemap地图绘制速度的技巧

先安装好对应的包正文教程下面的都是我找到的不错教程,学会了也就能少花冤枉钱,不被Unity中国坑。【Unity小技巧】Unity2DTileMap的探究(最简单,最全面的TileMap使用介绍)这个博客会详细讲解了规则瓦片的各种功能,帮助我们可以快速自动地铺好地图,偏向俯视角地图制作,但是太全了,也没个参照,所以对于新

opencv 轮廓顶点重新排序----四边形

defreorder(myPoints):#print(myPoints.shape)#创建一个与myPoints具有相同形状和类型的数组myPointsNew=np.zeros_like(myPoints)#数组重塑为一个4行2列的数组myPoints=myPoints.reshape((4,2))#计算myPoin

三维模型3DTile格式轻量化压缩处理的数据质量提升方法分析

三维模型3DTile格式轻量化压缩处理的数据质量提升方法分析在处理三维模型3DTile格式的轻量化压缩时,如何在减少数据量的同时,保证或提升数据质量是一大挑战。以下为一些提升数据质量的方法分析:改进几何简化算法:在进行几何简化时,除了考虑顶点数量的减少,更要注重误差度量和形状特征。选择具有视觉优化功能的算法,例如基于四

Api接口加密策略

接口安全要求:1.防伪装攻击(案例:在公共网络环境中,第三方有意或恶意的调用我们的接口)2.防篡改攻击(案例:在公共网络环境中,请求头/查询字符串/内容在传输过程被修改)3.防重放攻击(案例:在公共网络环境中,请求被截获,稍后被重放或多次重放)4.防数据信息泄漏(案例:截获用户登录请求,截获到账号、密码等)设计原则:1

java - 散列算法 SHA-256 hash值计算

文章目录前言java-散列算法SHA-256hash值计算1.散列算法是什么?2.散列算法的主要特征是什么?3.计算SHA-256值有没有可能重复4.SHA-256算法实现示例前言如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^_^。而且听说点赞的人每天的运气都不会太差,实在白嫖的话,那欢迎常来

MQTT Paho Android 支持SSL/TLS(亲测有效)

MQTTPahoAndroid支持SSL/TLS(亲测有效)登录时支持ssl的交互这是调测登录界面设计代码中对ssl/tls的支持使用MqttAndroidClient配置mqtt客户端请求时,不加密及加密方式连接存在以下几点差异:url及端口差异valuri:String=if(tlsConnection){"ssl

CKA真题分析-2023年度

补充信息#补全#aptinstallbash-completionsource<(kubectlcompletionbash)#kubectlconfigget-contexts#cat~/.kube/config|grepcurrent#kubectlconfigcurrent-contextkubectlconfi

数据中心液冷服务器详情说明

目录前言何为液冷服务器?为什么需要液冷?1.数据中心降低PUE的需求2.政策导向3.芯片热功率已经达到风冷散热极限4.液冷比热远大于空气液冷VS风冷,区别在哪?1.液冷服务器跟风冷服务器的区别2.液冷数据中心跟风冷数据中心的区别液冷技术详情冷板式液冷1.优势2.冷板式整机示意图3.风冷服务器改造冷板式3.1技术难点3.

热文推荐