《大模型轻》量:化技术 让AI跑的更快更——省

2025-07-23 07:45:27      来源:东方网

随着大模型参数规模不断膨胀,其高昂的计算资源需求和低效的运行速度成为制约其广泛应用的瓶颈。本文将为您深入剖析大模型轻量化技术,供大家参考。

当前大模型如GPT-4已突破万亿级别参数量、如DeepSeek-R1已突破千亿级别参数量,这样的参数规模使得大模型的运行需要占用巨大的计算资源,同时训练和推理的效率低下。

以GPT-4的1.8万亿参数为例,模型参数FP32全精度对应的理论显存占用是7.2TB,需至少90张NVIDIAH10080GBGPU,而一块H100的GPU单价在$20,000-$40,000。若不考虑大模型轻量化及训练推理加速技术,单次生成1ktokens的推理延迟约为10秒,单次推理成本约为$0.5。

大模型的资源消耗量级是远超移动设备与边缘计算硬件的承载极限的,比如常见的智能手机通常仅有12-24GB内存。大模型对资源的需求和端侧设备只能提供有限算力的矛盾,催生了一批轻量化的技术手段。这里的轻量化是指,对大模型施加参数调整、训练优化等手段,在精度可接受的前提下,实现大模型的存储需求降低和运行效率提升。这是大模型走进手机、汽车、机器人等端侧设备的必经之路。

本文将通俗介绍大模型的四种轻量化技术,分别是蒸馏、剪枝、低秩分解和量化。

一、蒸馏

蒸馏的本质是让小型的学生模型(StudentModel)模仿大型的教师模型(TeacherModel)的决策逻辑,从而使得学生模型在保持较小规模的前提下逼近教师模型的推理能力。

传统的蒸馏机制在于引入软标签(SoftLabels)作为学生模型的训练目标。这里简要解释下软标签,如果模型直接判别输入图像是“猫/狗”,这类非0即1的输出可以看作是硬标签(HardLabels),比如模型输出的的硬标签是[0,1],代表模型判别输入图像是猫。软标签是模型输出的概率分布,当让模型判别一只老虎时,模型可能输出在猫、狗两个类别的概率值,此时软标签是[0.3,0.7],这种软标签隐含了类别间的相似性知识,比如老虎更接近猫的相貌,同时接近狗的体格。

在训练学生模型时,构造的训练目标函数是学生模型预测概率分布与教师模型预测概率分布的KL散度。在训练过程中,通过不断降低KL散度,让学生模型预测的概率分布逼近于教师模型预测的概率分布,从而确保学生模型逐步学习到教师模型的知识。

实际在大模型蒸馏过程中,学生模型还可以通过数据蒸馏的方式学习教师模型的推理能力。比如在论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作为教师模型,生成包含推理过程(CoT)和答案的高质量训练数据(共80万条样本),然后通过有监督微调的手段对Qwen2.5、Llama3等基础模型进行蒸馏。如下图所示,蒸馏之后的Qwen2.5、Llama3在数学推理和编码任务取得了很好的表现,说明了小模型性能是可以通过蒸馏手段提升的。

二、剪枝

剪枝的灵感源于神经科学。人类在婴儿期会产生大量的突触连接,但是在成长过程中低频的突触连接会逐渐退化,而高频的突触连接会保留下来。在大模型的深度神经网络架构中,我们可以删除模型中某些结构或者冗余参数来达到给大模型“瘦身的效果”,相应的有结构化剪枝、非结构化剪枝两种技术手段:

非结构化剪枝:随机删除单个权重,比如小于某个阈值的权重。由于不改变模型的整体结构,剪枝之后会造成参数矩阵的稀疏性(一部分权重为0),这种稀疏性会导致普通GPU/CPU难以高效计算,需要用到专门的硬件比如NVIDIAA100TensorCoreGPU来保证性能发挥。非结构化剪枝更适用于压缩率要求较高,但硬件可控的场景,比如在数据中心内部部署大模型,并且搭配专用加速卡。

结构化剪枝:删除“结构化单元”,比如整个卷积核、注意力头、通道、甚至整个网络层。结构化剪枝后的模型结构规则与原始模型架构是兼容的,无需专用的硬件即可在普通GPU/CPU上运行。但是结构化剪枝的问题是可能导致大模型的部分功能失效,比如删除一个注意力机制模块可能丢失一部分的语义理解能力。因此,需要通过评估不同结构化单元的重要性来判断哪些结构可剪。结构化剪枝更适用于手机、汽车等端侧设备,支持实时目标检测、语音交互等任务。

三、低秩分解

大模型的参数矩阵往往是高维度的稠密矩阵,而低秩分解的思路就是通过用一些更低维度的矩阵来表达稠密矩阵,从而在损失少量精度的前提下,大幅度降低参数总量。

举例来说,假设大模型的原始参数矩阵W的维度是m*n,通过线性代数的分解方法,将W分解为两个低秩矩阵的乘积,即W=U*V。其中U的维度是m*r,V的维度是r*n,注意r是远小于m也远小于n的,此时矩阵的参数总量就从m*n下降到(m*r+r*n)。

四、量化

我们都知道大模型内部有很多参数,而这些参数的数值格式会影响到存储和计算资源的效率。量化技术就是将传统的32位浮点数(FP32)参数,替换为更低位数的数值格式,比如8位整数、4位整数、二进制等,从而减少内存占用、降低计算量,并且适配硬件的低精度指令集。

举例来说,一个FP32的参数需要4字节存储,而INT8仅需1字节,理论上可实现4倍压缩;若进一步量化到INT4,则可实现8倍压缩。同时,低精度计算的硬件效率远高于FP32精度的计算,因此量化不仅能给大模型“瘦身”,还能直接提升推理速度。以DeepSeekR3为例,模型采用FP8量化方案,并且通过混合训练方案来确保模型的精度。

从云端到边缘,从万亿参数到百万参数,大模型的轻量化技术正在加速AI的落地应用。当大模型能以0.5秒速度在千元手机完成医学影像分析,以22ms延迟在汽车芯片规避碰撞风险,以3W功耗驱动矿山机器人自主巡检——这些场景的实现,意味着AI技术的应用门槛持续降低,其实际价值将在更广泛的领域中逐步显现。

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。

责编:蔡清馨编辑

以色列全境响防空警报

  绵阳拥有中国工程物理研究院、中国空气动力研究与发展中心等国家级科研院所18家,国家级创新平台25家,全社会研发经费(R&D)投入强度位居全国前列。

北大退学考清华男生自称有些狂妄

  博汇股份被要求补税5亿元,则是因为公司生产的重芳烃衍生品被税务部门认定需要按照重芳烃缴纳消费税,博汇股份对此不认同,最终是否补税、如何补税等仍有待税企双方良性沟通。

杀害杨靖宇日本军官自杀前的遗言

  依据有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予钟自然开除党籍处分;按规定取消其享受的待遇;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

以色列开始哭哭啼啼

  截至6月13日,全省大、中型水库可用水总量40.48亿立方米,储量充足有保证,按照6月底前无有效降雨的最不利因素考虑,可放水7亿立方米用于抗旱灌溉;南水北调中线工程、大中型水库及河道供水正常,地下水源较充沛,能够满足抗旱需求。5月下旬以来,对全省98.72万眼农田建设灌溉机井和56.85万项灌排沟渠设备进行全面排查,及时修复损坏设施,确保抗旱灌溉需要。省财政近期专门安排3000万抗旱专项资金,支持各地开展抗旱工作。

歌手首次开启双曲袭榜

  6月13日、14日,河南多地发布人工增雨公告。提醒:任何组织和个人若发现未爆炸或爆炸不完全弹头、弹药碎片或火箭弹残骸,切勿擅自移动、藏匿、拆解和损毁等,请立即报告当地政府或人工影响天气有关部门,或者立即拨打110向当地公安部门报警。

美国型钻地弹仅次于核武器

  近日,农业农村部、水利部、应急管理部、中国气象局联合下发通知,要求各地立足加强组织领导,落实工作责任,分区分类指导,细化实化措施,确保夏播作物种足种满,奠定秋粮和全年粮食丰收基础。/p>

歌手袭榜

  国家防灾减灾救灾委员会办公室、应急管理部会同国家粮食和物资储备局向河北、山西、内蒙古、山东、河南5省(区)调拨3万件中央救灾物资,支持地方做好抗旱救灾各项工作。/p>

男子一周吃次火锅查出食管癌

  据四川省政府官网介绍,四川是国家系统推进全面创新改革试验的八个区域之一,拥有中国(四川)自由贸易试验区、成都国家自主创新示范区、天府新区、绵阳科技城、攀西战略性资源创新开发试验区等多个重大区域创新平台。