并行KV Cache【压缩支持】的128K长度外推方法ParallelCom:、p

2025-07-21 18:05:58      来源:山西新闻网

作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。已在ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。个人主页:https://menik1126.github.io/

引言:大模型长文本推理的瓶颈与突破

随着大语言模型(LLMs)能力日益提升,AI对超长文本的理解和处理需求也变得前所未有地重要。然而,目前主流LLM虽然依赖旋转位置编码(RoPE)等机制,在训练阶段能高效处理4K-8Ktokens级别的上下文,但一旦推理阶段外推遇到如128K以上长度的长文本时,模型往往受到显存瓶颈的限制和注意力下沉(attentionsink)等问题影响,采用常规的文本截断方案容易出现信息遗失,这极大限制了大模型在实际场景中的应用拓展。

业界目前尝试的处理长文本的高效推理主要的瓶颈有两个,一个是位置编码的长度外推,再一个是长度外推中的内存瓶颈。

目前的位置编码包括两类:一是基于频率区分的NTK插值方法,为不同频段位置编码设计专属策略以试图拓展长度上限;二是各种分块(chunking)方法,将文本切分、块内复用位置编码,避免重新训练的高昂成本。在处理超长上下文(>128K)外推时,两种方案的优劣仍是未知的。

在解决显存瓶颈时,普遍采用了KVcache压缩的方案,并且一些方案发现在传统自回归场景下的注意力普遍遭遇了“注意力下沉”(AttentionSink)现象影响——模型的注意力极易集中在文本首尾,如果加以合理利用可以提升模型性能,但在并行注意力下的注意力下沉的机制是仍待探索的。

图1:标准Attention和并行Attention机制下的注意力分布虽然有所不同,但都容易陷入这种“塌缩”状态。而并行注意力机制在极长文本中产生的多峰新型“sink”现象,尚缺乏系统剖析与有效解决之道。

我们的创新:ParallelComp,高效超长文本推理新范式

针对上述问题,我们提出了一种全新的训练免调(Training-Free)长文本处理方案——ParallelComp,其核心包括并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术创新。

论文标题:ParallelComp:ParallelLong-ContextCompressorforLengthExtrapolation

论文链接:https://arxiv.org/abs/2502.14317

代码链接:https://github.com/menik1126/ParallelComp

图2:ParallelComp整体流程示意图

1.并行分块注意力,让超长文本“轻松分段消化”

首先,ParallelComp借鉴并拓展了分块思想,将输入长文本按模型最大处理长度自动切分为若干块(chunk),并与查询一起并行输入模型进行本地Attention计算。这样不仅可以获得块内的注意力分布,还可以通过块的位置编码重用机制可以让模型灵活外推至128K级别的序列长度而性能无明显损失。(见图2)

2.双重淘汰机制,极致压缩显存消耗

分块淘汰(ChunkEviction):基于每个块内部token对查询的“自信息量”进行在线打分,仅保留信息量最高、对当前任务最相关的一部分文本块,极大缩减内存开销。

KV缓存淘汰(ParallelKVCacheEviction):采用高效的FlashAttention推断算法,动态评估每个token在Attention计算中的全局重要性,自动驱逐影响较小的token,实现了分块粒度的KV缓存智能压缩。

通过这两项机制,全流程推理所需显存可以压缩到64G,且基于并行预填充过程即可完成高达128K长度推理任务,显著提升Batchinference和多GPU设置下的推理效率。

图3:三类典型注意力偏置分布案例(U型、山峰型、均匀型)

图4:几种KVcache驱逐策略后的模型的分布

3.注意力偏差校准,攻克并行下的多峰“sink”现象

通过理论分析与大量可视化实证,我们发现并行分块机制下,不同于经典的U型AttentionSink,容易出现多峰、区域性异常(见图3、图4)。为此,我们提出在Attention分布中对异常高分token实施“偏差校准”——分层驱逐被极端关注的token,使Attention分布趋于平滑,极大降低了模型关注“死角”和信息遗漏风险。

进一步的分层实验揭示,不同类型注意力偏差(“首段偏置”“尾段偏置”“中部塌缩”)可分别通过不同深度层的token淘汰策略加以缓解,为长文本推理设计提供了细致化的实操指引。

一个有趣的观察是有些特定层的注意力偏差对模型的上下文学习能力和推理能力至关重要。

i)浅层(第1-8层)的首段偏置对于检索类任务至关重要。去除这些token会显著削弱模型性能。

ii)深层(第9-16层)的尾段偏置在模型推理能力中起到关键作用。淘汰这些token会导致编码和数学任务的性能下降。

iii)浅层的中部偏置(第1-8层)会损害模型的理解能力,淘汰这些token反而能够提升模型表现。而深层的中部偏置(第24-31层)有助于模型在阅读理解任务(如En.MC)中的能力,去除它们会降低模型表现。

iv)早期层(第1-8层)的尾段偏置对于模型的上下文学习能力同样非常重要。

理论与实验分析

我们的理论分析表明,并行Attention下“稀疏性”与“有效信息量”之间存在量化可控的门槛。随着chunk数量增多和长度变长,Attention大概率只会专注于极少数token。合理选择稀疏参数、分层校准策略,可在计算效率与信息保真度之间取得最优平衡。

表2:在longbench上的性能。

表3:在infinitebench上的性能。

表4:PPL的性能

表5:加速比和性能分析

大规模实验显示,ParallelComp在A100-80GB单卡环境中,模型推理长度从8K无缝外推至128K,prefilling阶段加速高达23.5倍;使用仅8B参数、且仅在8K上下文训练的小模型即可在超长文本任务中整体性能达到GPT-4o性能的91.17%,在特定任务下可以超过GPT-4o的性能,甚至超过Claude-2和Kimi-Chat等高参数闭源大模型。这一成果充分证明,我们的方法不仅适用于算力受限场景,更为LLM实际落地部署带来了崭新范式。

结论与展望

ParallelComp为长文本推理时代的LLM结构创新带来了“多快好省”的系统级跃升——无需新训练、仅借助智能分块和淘汰机制,即可极大提升处理长度、效率,并摆脱原有的注意力失衡难题。我们期待该方法未来在法律文档、医学文献、长篇小说等需求复杂的产业应用中进一步开花结果。

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

责编:让以柳编辑

林俊杰北京演唱会二开

  纪宁说,目前中国青少年网球尤其是女子青少年网球,已经成为体育职业化和商业化领域一个风口。郑钦文夺冠能促进更多中国青少年加入网球运动。与此同时,中国网球训练场地和比赛场地硬件条件以及软件设施也在发生巨大变化,网球经济蕴含的巨大空间也随之逐步释放出来。

千万别买到青岛西

  兰州机场T1+T2面积8.9万平方米,去年吞吐量超过1700万人次,可以说不堪重负。乌鲁木齐机场T1+T2+T3面积18.48万平方米,需要承载超过2700万人次的吞吐量。

在暨大科技加持后的体育会有多强

  受高空低槽东移影响,16日河南省有分散性阵雨、雷阵雨,雨量分布不均,中西部局部中雨或大雨,并伴有短时强降水、雷暴大风等强对流天气。

导播不语只是一味切易烊千玺

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。

成毅去钓鱼了

  针对上述情况,通用汽车高管表示,企业对扭转中国市场的销售局面仍有信心,他们希望旗下新能源车型能在中国市场继续发力。据彭博社报道,通用汽车董事长兼首席执行官玛丽·博拉此前表示,“当你观察中国市场时,会发现它与5年前有很大不同。我们希望能够以正确的方式参与到这个市场中。”尽管在中国市场份额占比不大,但斯特兰蒂斯也看好中国市场,并“入股”中国车企。去年10月,斯特兰蒂斯宣布与中国零跑汽车成为全球战略伙伴,并向后者投资15亿欧元。

单依纯离常石磊远一点

  张先生认为,网球明星的出现与整个网球运动以及网球经济的发展是相互促进的,并形成正向反馈。他说,明星越多,示范效应就越强,就会更加刺激网球运动的发展,网球经济热度也会越高。而打网球的人多了,就会涌现出更多的网球明星。/p>

美国型钻地弹仅次于核武器

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。/p>

留英博士迷奸多人想化学阉割减刑遭拒

  参与运营北京奥林匹克森林公园西畔的国家网球中心两片红土网球场地的维宁体育创始人、CEO纪宁8日告诉《环球时报》记者:“本就稀缺的网球场馆在郑钦文夺冠后变得更加炙手可热,现在根本都约不上。”