大:模型轻量化技术 让AI跑的更快《更||省》

2025-07-27 21:02:43      来源:南方网

随着大模型参数规模不断膨胀,其高昂的计算资源需求和低效的运行速度成为制约其广泛应用的瓶颈。本文将为您深入剖析大模型轻量化技术,供大家参考。

当前大模型如GPT-4已突破万亿级别参数量、如DeepSeek-R1已突破千亿级别参数量,这样的参数规模使得大模型的运行需要占用巨大的计算资源,同时训练和推理的效率低下。

以GPT-4的1.8万亿参数为例,模型参数FP32全精度对应的理论显存占用是7.2TB,需至少90张NVIDIAH10080GBGPU,而一块H100的GPU单价在$20,000-$40,000。若不考虑大模型轻量化及训练推理加速技术,单次生成1ktokens的推理延迟约为10秒,单次推理成本约为$0.5。

大模型的资源消耗量级是远超移动设备与边缘计算硬件的承载极限的,比如常见的智能手机通常仅有12-24GB内存。大模型对资源的需求和端侧设备只能提供有限算力的矛盾,催生了一批轻量化的技术手段。这里的轻量化是指,对大模型施加参数调整、训练优化等手段,在精度可接受的前提下,实现大模型的存储需求降低和运行效率提升。这是大模型走进手机、汽车、机器人等端侧设备的必经之路。

本文将通俗介绍大模型的四种轻量化技术,分别是蒸馏、剪枝、低秩分解和量化。

一、蒸馏

蒸馏的本质是让小型的学生模型(StudentModel)模仿大型的教师模型(TeacherModel)的决策逻辑,从而使得学生模型在保持较小规模的前提下逼近教师模型的推理能力。

传统的蒸馏机制在于引入软标签(SoftLabels)作为学生模型的训练目标。这里简要解释下软标签,如果模型直接判别输入图像是“猫/狗”,这类非0即1的输出可以看作是硬标签(HardLabels),比如模型输出的的硬标签是[0,1],代表模型判别输入图像是猫。软标签是模型输出的概率分布,当让模型判别一只老虎时,模型可能输出在猫、狗两个类别的概率值,此时软标签是[0.3,0.7],这种软标签隐含了类别间的相似性知识,比如老虎更接近猫的相貌,同时接近狗的体格。

在训练学生模型时,构造的训练目标函数是学生模型预测概率分布与教师模型预测概率分布的KL散度。在训练过程中,通过不断降低KL散度,让学生模型预测的概率分布逼近于教师模型预测的概率分布,从而确保学生模型逐步学习到教师模型的知识。

实际在大模型蒸馏过程中,学生模型还可以通过数据蒸馏的方式学习教师模型的推理能力。比如在论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作为教师模型,生成包含推理过程(CoT)和答案的高质量训练数据(共80万条样本),然后通过有监督微调的手段对Qwen2.5、Llama3等基础模型进行蒸馏。如下图所示,蒸馏之后的Qwen2.5、Llama3在数学推理和编码任务取得了很好的表现,说明了小模型性能是可以通过蒸馏手段提升的。

二、剪枝

剪枝的灵感源于神经科学。人类在婴儿期会产生大量的突触连接,但是在成长过程中低频的突触连接会逐渐退化,而高频的突触连接会保留下来。在大模型的深度神经网络架构中,我们可以删除模型中某些结构或者冗余参数来达到给大模型“瘦身的效果”,相应的有结构化剪枝、非结构化剪枝两种技术手段:

非结构化剪枝:随机删除单个权重,比如小于某个阈值的权重。由于不改变模型的整体结构,剪枝之后会造成参数矩阵的稀疏性(一部分权重为0),这种稀疏性会导致普通GPU/CPU难以高效计算,需要用到专门的硬件比如NVIDIAA100TensorCoreGPU来保证性能发挥。非结构化剪枝更适用于压缩率要求较高,但硬件可控的场景,比如在数据中心内部部署大模型,并且搭配专用加速卡。

结构化剪枝:删除“结构化单元”,比如整个卷积核、注意力头、通道、甚至整个网络层。结构化剪枝后的模型结构规则与原始模型架构是兼容的,无需专用的硬件即可在普通GPU/CPU上运行。但是结构化剪枝的问题是可能导致大模型的部分功能失效,比如删除一个注意力机制模块可能丢失一部分的语义理解能力。因此,需要通过评估不同结构化单元的重要性来判断哪些结构可剪。结构化剪枝更适用于手机、汽车等端侧设备,支持实时目标检测、语音交互等任务。

三、低秩分解

大模型的参数矩阵往往是高维度的稠密矩阵,而低秩分解的思路就是通过用一些更低维度的矩阵来表达稠密矩阵,从而在损失少量精度的前提下,大幅度降低参数总量。

举例来说,假设大模型的原始参数矩阵W的维度是m*n,通过线性代数的分解方法,将W分解为两个低秩矩阵的乘积,即W=U*V。其中U的维度是m*r,V的维度是r*n,注意r是远小于m也远小于n的,此时矩阵的参数总量就从m*n下降到(m*r+r*n)。

四、量化

我们都知道大模型内部有很多参数,而这些参数的数值格式会影响到存储和计算资源的效率。量化技术就是将传统的32位浮点数(FP32)参数,替换为更低位数的数值格式,比如8位整数、4位整数、二进制等,从而减少内存占用、降低计算量,并且适配硬件的低精度指令集。

举例来说,一个FP32的参数需要4字节存储,而INT8仅需1字节,理论上可实现4倍压缩;若进一步量化到INT4,则可实现8倍压缩。同时,低精度计算的硬件效率远高于FP32精度的计算,因此量化不仅能给大模型“瘦身”,还能直接提升推理速度。以DeepSeekR3为例,模型采用FP8量化方案,并且通过混合训练方案来确保模型的精度。

从云端到边缘,从万亿参数到百万参数,大模型的轻量化技术正在加速AI的落地应用。当大模型能以0.5秒速度在千元手机完成医学影像分析,以22ms延迟在汽车芯片规避碰撞风险,以3W功耗驱动矿山机器人自主巡检——这些场景的实现,意味着AI技术的应用门槛持续降低,其实际价值将在更广泛的领域中逐步显现。

  靳东,1976年出生于山东省,毕业于中央戏剧学院,国家一级演员,曾获得“青年五四奖章”先进个人、“全国德艺双馨电视艺术工作者”等荣誉称号。他还是第十四届全国政协委员。

责编:孙治木编辑

曾黎四个寥寥无几的粉丝

  2013年,早在“一带一路”倡议提出时,对新疆的定位是:丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心,打造丝绸之路经济带核心区。对陕西、甘肃、宁夏、青海的定位则为:面向中亚、南亚、西亚国家的通道、商贸物流枢纽、重要产业和人文交流基地。

大补货后黄牛发声

  要解决这一问题,放松税收征管并非良策,因为这不仅涉及税务机关工作人员渎职问题,也影响社会公平,毕竟各地税务机关征管力度不一,将影响企业公平竞争,有违全国统一大市场构建。

许嵩玫瑰花的葬礼全损音质

  6月17日,澎湃新闻(www.thepaper.cn)从陈政高同志多位亲友处获悉,住房和城乡建设部原部长、党组书记陈政高同志,因病于2024年6月16日在北京逝世,享年72岁。

纪凌尘还留着年前的画

  2024年,西安机场旅客吞吐量4703.04万人次,排名全国第11位;乌鲁木齐机场旅客吞吐量2776.57万人次,排名全国第18位。西安去年GDP为13317.78亿元,排名全国第21位;乌鲁木齐去年GDP仅为4502.16亿元,排名全国第74位。

余名中国公民已从伊朗安全撤离

  第二,议程设置失灵。新任领导刚上任,却没有提出让民众有感的重大改革行动,欠缺议程设置能力,迄未展现其领导能力,无法主导政治议程,反而任由蓝白“在野”党主导议题引领风潮。

被通知裁员的黄金一小时

  国泰航空之前已在内地开通19个航点,但这次格外用心,为乌鲁木齐航线专门投放了配备可全平躺商务舱座椅的A330-300宽体机,在机载娱乐系统加入了《我的阿勒泰》,商务舱酒单上还出现了新疆产的红酒。/p>

路人镜头下的锤娜丽莎

  针对近期持续高温干旱对农业生产造成的不利影响,农业农村部在前期发布预警信息的基础上,于6月11日对河北、山西、江苏、安徽、山东、河南、陕西等省启动农业重大自然灾害四级应急响应。/p>

唯一没有黑粉的明星

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。