大模型轻量化技术 让AI跑的:更,快更省

2025-07-27 02:08:53      来源:红网

随着大模型参数规模不断膨胀,其高昂的计算资源需求和低效的运行速度成为制约其广泛应用的瓶颈。本文将为您深入剖析大模型轻量化技术,供大家参考。

当前大模型如GPT-4已突破万亿级别参数量、如DeepSeek-R1已突破千亿级别参数量,这样的参数规模使得大模型的运行需要占用巨大的计算资源,同时训练和推理的效率低下。

以GPT-4的1.8万亿参数为例,模型参数FP32全精度对应的理论显存占用是7.2TB,需至少90张NVIDIAH10080GBGPU,而一块H100的GPU单价在$20,000-$40,000。若不考虑大模型轻量化及训练推理加速技术,单次生成1ktokens的推理延迟约为10秒,单次推理成本约为$0.5。

大模型的资源消耗量级是远超移动设备与边缘计算硬件的承载极限的,比如常见的智能手机通常仅有12-24GB内存。大模型对资源的需求和端侧设备只能提供有限算力的矛盾,催生了一批轻量化的技术手段。这里的轻量化是指,对大模型施加参数调整、训练优化等手段,在精度可接受的前提下,实现大模型的存储需求降低和运行效率提升。这是大模型走进手机、汽车、机器人等端侧设备的必经之路。

本文将通俗介绍大模型的四种轻量化技术,分别是蒸馏、剪枝、低秩分解和量化。

一、蒸馏

蒸馏的本质是让小型的学生模型(StudentModel)模仿大型的教师模型(TeacherModel)的决策逻辑,从而使得学生模型在保持较小规模的前提下逼近教师模型的推理能力。

传统的蒸馏机制在于引入软标签(SoftLabels)作为学生模型的训练目标。这里简要解释下软标签,如果模型直接判别输入图像是“猫/狗”,这类非0即1的输出可以看作是硬标签(HardLabels),比如模型输出的的硬标签是[0,1],代表模型判别输入图像是猫。软标签是模型输出的概率分布,当让模型判别一只老虎时,模型可能输出在猫、狗两个类别的概率值,此时软标签是[0.3,0.7],这种软标签隐含了类别间的相似性知识,比如老虎更接近猫的相貌,同时接近狗的体格。

在训练学生模型时,构造的训练目标函数是学生模型预测概率分布与教师模型预测概率分布的KL散度。在训练过程中,通过不断降低KL散度,让学生模型预测的概率分布逼近于教师模型预测的概率分布,从而确保学生模型逐步学习到教师模型的知识。

实际在大模型蒸馏过程中,学生模型还可以通过数据蒸馏的方式学习教师模型的推理能力。比如在论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作为教师模型,生成包含推理过程(CoT)和答案的高质量训练数据(共80万条样本),然后通过有监督微调的手段对Qwen2.5、Llama3等基础模型进行蒸馏。如下图所示,蒸馏之后的Qwen2.5、Llama3在数学推理和编码任务取得了很好的表现,说明了小模型性能是可以通过蒸馏手段提升的。

二、剪枝

剪枝的灵感源于神经科学。人类在婴儿期会产生大量的突触连接,但是在成长过程中低频的突触连接会逐渐退化,而高频的突触连接会保留下来。在大模型的深度神经网络架构中,我们可以删除模型中某些结构或者冗余参数来达到给大模型“瘦身的效果”,相应的有结构化剪枝、非结构化剪枝两种技术手段:

非结构化剪枝:随机删除单个权重,比如小于某个阈值的权重。由于不改变模型的整体结构,剪枝之后会造成参数矩阵的稀疏性(一部分权重为0),这种稀疏性会导致普通GPU/CPU难以高效计算,需要用到专门的硬件比如NVIDIAA100TensorCoreGPU来保证性能发挥。非结构化剪枝更适用于压缩率要求较高,但硬件可控的场景,比如在数据中心内部部署大模型,并且搭配专用加速卡。

结构化剪枝:删除“结构化单元”,比如整个卷积核、注意力头、通道、甚至整个网络层。结构化剪枝后的模型结构规则与原始模型架构是兼容的,无需专用的硬件即可在普通GPU/CPU上运行。但是结构化剪枝的问题是可能导致大模型的部分功能失效,比如删除一个注意力机制模块可能丢失一部分的语义理解能力。因此,需要通过评估不同结构化单元的重要性来判断哪些结构可剪。结构化剪枝更适用于手机、汽车等端侧设备,支持实时目标检测、语音交互等任务。

三、低秩分解

大模型的参数矩阵往往是高维度的稠密矩阵,而低秩分解的思路就是通过用一些更低维度的矩阵来表达稠密矩阵,从而在损失少量精度的前提下,大幅度降低参数总量。

举例来说,假设大模型的原始参数矩阵W的维度是m*n,通过线性代数的分解方法,将W分解为两个低秩矩阵的乘积,即W=U*V。其中U的维度是m*r,V的维度是r*n,注意r是远小于m也远小于n的,此时矩阵的参数总量就从m*n下降到(m*r+r*n)。

四、量化

我们都知道大模型内部有很多参数,而这些参数的数值格式会影响到存储和计算资源的效率。量化技术就是将传统的32位浮点数(FP32)参数,替换为更低位数的数值格式,比如8位整数、4位整数、二进制等,从而减少内存占用、降低计算量,并且适配硬件的低精度指令集。

举例来说,一个FP32的参数需要4字节存储,而INT8仅需1字节,理论上可实现4倍压缩;若进一步量化到INT4,则可实现8倍压缩。同时,低精度计算的硬件效率远高于FP32精度的计算,因此量化不仅能给大模型“瘦身”,还能直接提升推理速度。以DeepSeekR3为例,模型采用FP8量化方案,并且通过混合训练方案来确保模型的精度。

从云端到边缘,从万亿参数到百万参数,大模型的轻量化技术正在加速AI的落地应用。当大模型能以0.5秒速度在千元手机完成医学影像分析,以22ms延迟在汽车芯片规避碰撞风险,以3W功耗驱动矿山机器人自主巡检——这些场景的实现,意味着AI技术的应用门槛持续降低,其实际价值将在更广泛的领域中逐步显现。

  今年36岁的李樟煜,已经在残疾人自行车项目征战多年。2012年伦敦残奥会,他第一次实现了残奥冠军梦。接下来,从里约到东京,再到巴黎,他带着梦想破风前行,每届残奥会都有金牌入账。据介绍,李樟煜获得的各类国际赛事奖牌已有50多枚。

责编:林冠强编辑

胡塞武装宣布恢复袭击美舰船

  中国驻英国使馆发言人13日表示,英方有关制裁是没有国际法依据的单边主义行径,中方坚决反对,已向英方提出严正交涉。英国政府罔顾国内国际民意,不断火上浇油,助长战事延绵不绝、生灵涂炭,致使和平更加遥遥无期。

那尔那茜涉嫌高考报名材料造假

  中央要求谋划新一轮财税改革,税制改革是重头戏,未来增值税、消费税、个税等主要税种还将有进一步改革举措。笔者呼吁,在税收征管不断强化的同时,为促进企业、个人实际税负维持在合理水平,未来税制改革应当统筹考虑降低名义税率。

投资者纷纷抛售风险资产

  中国煤矿文工团成立于1947年东北解放区,是国家级艺术院团中历史最悠久的单位之一。2005年,加挂了“中国安全生产艺术团”的牌子。2018年9月,转隶到文化和旅游部。

医生说微胖的人更能扛病

  春秋旅游副总经理周卫红表示,随着更多客源地的境外游客得以通过更便捷的方式来到中国,了解、感受中国的开放态度、全球胸怀,旅游企业也将结合更多体验性的文化内容,设计丰富多样的出入境游新品。同时,澳大利亚、新西兰也有着很多华人华侨,单方面免签的推出,在方便他们回国探亲访友之余,同时也可以通过旅游,来看看中国发生的深刻变化,体验丰富多彩的生活和文化。

普京说俄士兵脚踩之地就属于俄罗斯

  依据有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予钟自然开除党籍处分;按规定取消其享受的待遇;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

成毅或将演两京十五日

  据国际网球联合会发布的《2021年全球网球报告》,2021年全球参与网球运动的人口有8718万人,中国以1992万人成为全球网球参与人数排名第二的国家,仅次于美国,占全球总网球人口的22.9%。同时,中国网球场的数量也为全球第二,达49767个。网球教练则以11350人位居全球第五。/p>

陈赫回复王勉

  新疆机场集团总经理吕辉斌表示,国泰航空开通乌鲁木齐至香港航线,标志着乌鲁木齐天山国际机场的航线网络又一次升级,满足了新疆及周边地区旅客日益增长的出行需求,不仅提升了乌鲁木齐机场的国际化水平,也将进一步增强新疆的区位优势和影响力,共同助力打造乌鲁木齐成为连接亚欧区域门户复合型国际航空枢纽目标。/p>

日本黑皮西瓜最高价一只万元

  根据美国CNBC网站梳理的数据,通用汽车及其合资公司在华市场份额从2015年的15%左右降至去年的8.6%,中国市场盈利占通用汽车全部盈利的比例也有所下降。2022年,斯特兰蒂斯集团表示只在中国地区保留其旗下Jeep品牌的进口业务。