大模型轻量:{化、技术} 让AI跑的更快更省

2025-07-28 18:02:48      来源:三联生活周刊

随着大模型参数规模不断膨胀,其高昂的计算资源需求和低效的运行速度成为制约其广泛应用的瓶颈。本文将为您深入剖析大模型轻量化技术,供大家参考。

当前大模型如GPT-4已突破万亿级别参数量、如DeepSeek-R1已突破千亿级别参数量,这样的参数规模使得大模型的运行需要占用巨大的计算资源,同时训练和推理的效率低下。

以GPT-4的1.8万亿参数为例,模型参数FP32全精度对应的理论显存占用是7.2TB,需至少90张NVIDIAH10080GBGPU,而一块H100的GPU单价在$20,000-$40,000。若不考虑大模型轻量化及训练推理加速技术,单次生成1ktokens的推理延迟约为10秒,单次推理成本约为$0.5。

大模型的资源消耗量级是远超移动设备与边缘计算硬件的承载极限的,比如常见的智能手机通常仅有12-24GB内存。大模型对资源的需求和端侧设备只能提供有限算力的矛盾,催生了一批轻量化的技术手段。这里的轻量化是指,对大模型施加参数调整、训练优化等手段,在精度可接受的前提下,实现大模型的存储需求降低和运行效率提升。这是大模型走进手机、汽车、机器人等端侧设备的必经之路。

本文将通俗介绍大模型的四种轻量化技术,分别是蒸馏、剪枝、低秩分解和量化。

一、蒸馏

蒸馏的本质是让小型的学生模型(StudentModel)模仿大型的教师模型(TeacherModel)的决策逻辑,从而使得学生模型在保持较小规模的前提下逼近教师模型的推理能力。

传统的蒸馏机制在于引入软标签(SoftLabels)作为学生模型的训练目标。这里简要解释下软标签,如果模型直接判别输入图像是“猫/狗”,这类非0即1的输出可以看作是硬标签(HardLabels),比如模型输出的的硬标签是[0,1],代表模型判别输入图像是猫。软标签是模型输出的概率分布,当让模型判别一只老虎时,模型可能输出在猫、狗两个类别的概率值,此时软标签是[0.3,0.7],这种软标签隐含了类别间的相似性知识,比如老虎更接近猫的相貌,同时接近狗的体格。

在训练学生模型时,构造的训练目标函数是学生模型预测概率分布与教师模型预测概率分布的KL散度。在训练过程中,通过不断降低KL散度,让学生模型预测的概率分布逼近于教师模型预测的概率分布,从而确保学生模型逐步学习到教师模型的知识。

实际在大模型蒸馏过程中,学生模型还可以通过数据蒸馏的方式学习教师模型的推理能力。比如在论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》中,首先使用DeepSeek-R1作为教师模型,生成包含推理过程(CoT)和答案的高质量训练数据(共80万条样本),然后通过有监督微调的手段对Qwen2.5、Llama3等基础模型进行蒸馏。如下图所示,蒸馏之后的Qwen2.5、Llama3在数学推理和编码任务取得了很好的表现,说明了小模型性能是可以通过蒸馏手段提升的。

二、剪枝

剪枝的灵感源于神经科学。人类在婴儿期会产生大量的突触连接,但是在成长过程中低频的突触连接会逐渐退化,而高频的突触连接会保留下来。在大模型的深度神经网络架构中,我们可以删除模型中某些结构或者冗余参数来达到给大模型“瘦身的效果”,相应的有结构化剪枝、非结构化剪枝两种技术手段:

非结构化剪枝:随机删除单个权重,比如小于某个阈值的权重。由于不改变模型的整体结构,剪枝之后会造成参数矩阵的稀疏性(一部分权重为0),这种稀疏性会导致普通GPU/CPU难以高效计算,需要用到专门的硬件比如NVIDIAA100TensorCoreGPU来保证性能发挥。非结构化剪枝更适用于压缩率要求较高,但硬件可控的场景,比如在数据中心内部部署大模型,并且搭配专用加速卡。

结构化剪枝:删除“结构化单元”,比如整个卷积核、注意力头、通道、甚至整个网络层。结构化剪枝后的模型结构规则与原始模型架构是兼容的,无需专用的硬件即可在普通GPU/CPU上运行。但是结构化剪枝的问题是可能导致大模型的部分功能失效,比如删除一个注意力机制模块可能丢失一部分的语义理解能力。因此,需要通过评估不同结构化单元的重要性来判断哪些结构可剪。结构化剪枝更适用于手机、汽车等端侧设备,支持实时目标检测、语音交互等任务。

三、低秩分解

大模型的参数矩阵往往是高维度的稠密矩阵,而低秩分解的思路就是通过用一些更低维度的矩阵来表达稠密矩阵,从而在损失少量精度的前提下,大幅度降低参数总量。

举例来说,假设大模型的原始参数矩阵W的维度是m*n,通过线性代数的分解方法,将W分解为两个低秩矩阵的乘积,即W=U*V。其中U的维度是m*r,V的维度是r*n,注意r是远小于m也远小于n的,此时矩阵的参数总量就从m*n下降到(m*r+r*n)。

四、量化

我们都知道大模型内部有很多参数,而这些参数的数值格式会影响到存储和计算资源的效率。量化技术就是将传统的32位浮点数(FP32)参数,替换为更低位数的数值格式,比如8位整数、4位整数、二进制等,从而减少内存占用、降低计算量,并且适配硬件的低精度指令集。

举例来说,一个FP32的参数需要4字节存储,而INT8仅需1字节,理论上可实现4倍压缩;若进一步量化到INT4,则可实现8倍压缩。同时,低精度计算的硬件效率远高于FP32精度的计算,因此量化不仅能给大模型“瘦身”,还能直接提升推理速度。以DeepSeekR3为例,模型采用FP8量化方案,并且通过混合训练方案来确保模型的精度。

从云端到边缘,从万亿参数到百万参数,大模型的轻量化技术正在加速AI的落地应用。当大模型能以0.5秒速度在千元手机完成医学影像分析,以22ms延迟在汽车芯片规避碰撞风险,以3W功耗驱动矿山机器人自主巡检——这些场景的实现,意味着AI技术的应用门槛持续降低,其实际价值将在更广泛的领域中逐步显现。

  坚持因地制宜、科学抗旱,河库灌区及时开闸放水,增加流量,采取疏通渠道、维修涵闸等措施,做到远送多浇、有水可浇;引黄灌区根据抗旱需水情况,及时开闸放水,争取多引黄河水;平原灌区发挥机电井作用,采取有效措施保障机井通电,并组织投入各类排灌机械179.4万台,努力增加抗旱播种面积。丘陵岗区利用坑、塘、堰、坝等小型水利工程组织抗旱播种。夏播以来,全省累计抗旱浇水7977.3万亩次,播种进度与常年相当。

责编:许姿莹编辑

李先彬自曝是李光洙追的自己

  8月28日上午,中国煤矿文工团召开干部大会,宣布文工团领导任命决定。经文化和旅游部研究决定,任命靳东为中国煤矿文工团(中国安全生产艺术团)团长。

树莓

  在会见国泰集团行政总裁林绍波时,自治区党委书记马兴瑞表示,希望国泰集团发挥优势,和新疆共同运行好直航航线,不断提升吸引力和可持续性。着眼更大范围、更宽领域拓展双方互利合作,助力新疆经济社会加快发展,打造亚欧黄金通道和向西开放桥头堡。用好新疆区位优势,积极开拓中亚等区域市场,实现更大发展。

今日时分夏至

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。

郝蕾录制现场发飙要求改赛制

  针对上述情况,通用汽车高管表示,企业对扭转中国市场的销售局面仍有信心,他们希望旗下新能源车型能在中国市场继续发力。据彭博社报道,通用汽车董事长兼首席执行官玛丽·博拉此前表示,“当你观察中国市场时,会发现它与5年前有很大不同。我们希望能够以正确的方式参与到这个市场中。”尽管在中国市场份额占比不大,但斯特兰蒂斯也看好中国市场,并“入股”中国车企。去年10月,斯特兰蒂斯宣布与中国零跑汽车成为全球战略伙伴,并向后者投资15亿欧元。

歌手直播

  数据显示,免签对入境游的促进效果显著。春秋旅游副总经理周卫红此前表示,自中国对多国单方面免签以来,对入境游市场起到积极的推动作用,让来自更多客源地的境外游客能够以更便捷的方式来到中国。

霍震霆曝儿子霍启仁已结婚

  去哪儿数据显示,消息发布后,去哪儿平台“澳大利亚”机票搜索量环比增长四成以上。在去哪儿平台上,飞往澳大利亚的航线覆盖多个城市。悉尼可直飞北京、上海、广州、深圳、成都、杭州、重庆、南京、厦门、天津、济南、西安、海口、郑州、太原等多个城市,暑期从郑州、重庆、天津往返悉尼更便宜,价格在2500元左右。此外,墨尔本可直飞北京、上海、广州、成都、杭州、南京、厦门、青岛、海口等城市,上海、广州也有直飞布里斯班的航班在售。从旅游订单来看,大堡礁、悉尼歌剧院、出海观海豚受到旅客欢迎,8-12日团预订更多。在澳大利亚,旅客可以出海观鲸、看企鹅归巢,体验特色风情。/p>

马嘉祺声乐老师发文

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。/p>

千万不要买绿色的防晒衣

  要解决这一问题,放松税收征管并非良策,因为这不仅涉及税务机关工作人员渎职问题,也影响社会公平,毕竟各地税务机关征管力度不一,将影响企业公平竞争,有违全国统一大市场构建。