大模:型轻量化技术 30%让AI跑的更快【更省】

2025-07-23 05:08:24      来源:每日甘肃网

随着大模型参数规模不断膨胀,其高昂的计算资源需求和低效的运行速度成为制约其广泛应用的瓶颈。本文将为您深入剖析大模型轻量化技术,供大家参考。

当前大模型如GPT-4已突破万亿级别参数量、如DeepSeek-R1已突破千亿级别参数量,这样的参数规模使得大模型的运行需要占用巨大的计算资源,同时训练和推理的效率低下。

以GPT-4的1.8万亿参数为例,模型参数FP32全精度对应的理论显存占用是7.2TB,需至少90张NVIDIAH10080GBGPU,而一块H100的GPU单价在$20,000-$40,000。若不考虑大模型轻量化及训练推理加速技术,单次生成1ktokens的推理延迟约为10秒,单次推理成本约为$0.5。

大模型的资源消耗量级是远超移动设备与边缘计算硬件的承载极限的,比如常见的智能手机通常仅有12-24GB内存。大模型对资源的需求和端侧设备只能提供有限算力的矛盾,催生了一批轻量化的技术手段。这里的轻量化是指,对大模型施加参数调整、训练优化等手段,在精度可接受的前提下,实现大模型的存储需求降低和运行效率提升。这是大模型走进手机、汽车、机器人等端侧设备的必经之路。

本文将通俗介绍大模型的四种轻量化技术,分别是蒸馏、剪枝、低秩分解和量化。

一、蒸馏

蒸馏的本质是让小型的学生模型(StudentModel)模仿大型的教师模型(TeacherModel)的决策逻辑,从而使得学生模型在保持较小规模的前提下逼近教师模型的推理能力。

传统的蒸馏机制在于引入软标签(SoftLabels)作为学生模型的训练目标。这里简要解释下软标签,如果模型直接判别输入图像是“猫/狗”,这类非0即1的输出可以看作是硬标签(HardLabels),比如模型输出的的硬标签是[0,1],代表模型判别输入图像是猫。软标签是模型输出的概率分布,当让模型判别一只老虎时,模型可能输出在猫、狗两个类别的概率值,此时软标签是[0.3,0.7],这种软标签隐含了类别间的相似性知识,比如老虎更接近猫的相貌,同时接近狗的体格。

在训练学生模型时,构造的训练目标函数是学生模型预测概率分布与教师模型预测概率分布的KL散度。在训练过程中,通过不断降低KL散度,让学生模型预测的概率分布逼近于教师模型预测的概率分布,从而确保学生模型逐步学习到教师模型的知识。

实际在大模型蒸馏过程中,学生模型还可以通过数据蒸馏的方式学习教师模型的推理能力。比如在论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作为教师模型,生成包含推理过程(CoT)和答案的高质量训练数据(共80万条样本),然后通过有监督微调的手段对Qwen2.5、Llama3等基础模型进行蒸馏。如下图所示,蒸馏之后的Qwen2.5、Llama3在数学推理和编码任务取得了很好的表现,说明了小模型性能是可以通过蒸馏手段提升的。

二、剪枝

剪枝的灵感源于神经科学。人类在婴儿期会产生大量的突触连接,但是在成长过程中低频的突触连接会逐渐退化,而高频的突触连接会保留下来。在大模型的深度神经网络架构中,我们可以删除模型中某些结构或者冗余参数来达到给大模型“瘦身的效果”,相应的有结构化剪枝、非结构化剪枝两种技术手段:

非结构化剪枝:随机删除单个权重,比如小于某个阈值的权重。由于不改变模型的整体结构,剪枝之后会造成参数矩阵的稀疏性(一部分权重为0),这种稀疏性会导致普通GPU/CPU难以高效计算,需要用到专门的硬件比如NVIDIAA100TensorCoreGPU来保证性能发挥。非结构化剪枝更适用于压缩率要求较高,但硬件可控的场景,比如在数据中心内部部署大模型,并且搭配专用加速卡。

结构化剪枝:删除“结构化单元”,比如整个卷积核、注意力头、通道、甚至整个网络层。结构化剪枝后的模型结构规则与原始模型架构是兼容的,无需专用的硬件即可在普通GPU/CPU上运行。但是结构化剪枝的问题是可能导致大模型的部分功能失效,比如删除一个注意力机制模块可能丢失一部分的语义理解能力。因此,需要通过评估不同结构化单元的重要性来判断哪些结构可剪。结构化剪枝更适用于手机、汽车等端侧设备,支持实时目标检测、语音交互等任务。

三、低秩分解

大模型的参数矩阵往往是高维度的稠密矩阵,而低秩分解的思路就是通过用一些更低维度的矩阵来表达稠密矩阵,从而在损失少量精度的前提下,大幅度降低参数总量。

举例来说,假设大模型的原始参数矩阵W的维度是m*n,通过线性代数的分解方法,将W分解为两个低秩矩阵的乘积,即W=U*V。其中U的维度是m*r,V的维度是r*n,注意r是远小于m也远小于n的,此时矩阵的参数总量就从m*n下降到(m*r+r*n)。

四、量化

我们都知道大模型内部有很多参数,而这些参数的数值格式会影响到存储和计算资源的效率。量化技术就是将传统的32位浮点数(FP32)参数,替换为更低位数的数值格式,比如8位整数、4位整数、二进制等,从而减少内存占用、降低计算量,并且适配硬件的低精度指令集。

举例来说,一个FP32的参数需要4字节存储,而INT8仅需1字节,理论上可实现4倍压缩;若进一步量化到INT4,则可实现8倍压缩。同时,低精度计算的硬件效率远高于FP32精度的计算,因此量化不仅能给大模型“瘦身”,还能直接提升推理速度。以DeepSeekR3为例,模型采用FP8量化方案,并且通过混合训练方案来确保模型的精度。

从云端到边缘,从万亿参数到百万参数,大模型的轻量化技术正在加速AI的落地应用。当大模型能以0.5秒速度在千元手机完成医学影像分析,以22ms延迟在汽车芯片规避碰撞风险,以3W功耗驱动矿山机器人自主巡检——这些场景的实现,意味着AI技术的应用门槛持续降低,其实际价值将在更广泛的领域中逐步显现。

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

责编:连玉婷编辑

热搜播客正式出道

  中国名义税负一直高于实际税负。所谓名义税负是指企业名义上该缴纳的税费。由于征管、企业对税法理解等原因,实际上企业不一定足额缴纳法律意义上的税费。

张继科说没价值的原因找到了

  中国名义税负一直高于实际税负。所谓名义税负是指企业名义上该缴纳的税费。由于征管、企业对税法理解等原因,实际上企业不一定足额缴纳法律意义上的税费。

合作之路越走越宽广

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。

及老板姚金成等被执行亿

  游盈隆表示,赖清德上任第一个月,只获不到半数台湾民众的支持,赖清德社会支持基础的流失是全面性的,不同程度的。游盈隆指出,根据相关经验证据,近一个月赖清德社会支持基础的流失主要原因至少有三:

合作之路越走越宽广

  体量不及西安的兰州,也拿出大手笔。T3航站楼面积40万平方米,综合交通中心27万平方米,是甘肃民航发展史上规模最大的工程。

纪凌尘还留着年前的画

  尽管中国并未采取集中清缴清欠税收等行动,但随着税收大数据广泛应用,网状、系统性税收风险分析取代了此前个人经验点对点分析,税收征管力度事实上在不断强化,税收征收率在不断提高。以前企业偷漏税可能不容易被发现,但近些年通过税收大数据,税务部门会收到企业风险提示,并跟企业确认,不少企业需要依法补缴税款。/p>

男子因眼睛小被频繁误判疲劳驾驶

  美国财政部本周早些时候也公布了新的反俄制裁方案,涉及俄罗斯以及中国等其他国家的300多家公司、银行和数十名个人。中国外交部发言人林剑13日表示,美国在全球范围内滥施单边制裁贻害无穷,严重损害他国主权安全,造成人道惨剧,破坏产供链稳定。乌克兰危机升级后,美方制裁更是变本加厉。而这种乱舞制裁大棒的做法,不仅无助于问题的解决,反而成为世界一个主要的风险源头。/p>

王安宇光头照

  中央要求谋划新一轮财税改革,税制改革是重头戏,未来增值税、消费税、个税等主要税种还将有进一步改革举措。笔者呼吁,在税收征管不断强化的同时,为促进企业、个人实际税负维持在合理水平,未来税制改革应当统筹考虑降低名义税率。