AI 技术获全球顶级学术会议认可 小米 2 篇论文入选 ICCV: 37%2025

2025-07-21 23:29:13      来源:东方网

IT之家7月8日消息,据小米技术消息,计算机视觉国际大会ICCV2025论文录用结果公布,小米两篇论文凭借创新性研究成果成功入选:视频理解大模型核心技术Q-Frame,推出行业首个动态帧选择与分辨率自适应框架,实现即插即用;持续学习框架AnalyticSubspaceRouting(Any-SSR),成功解决大语言模型在持续学习领域的核心难题「灾难性遗忘」问题。

据介绍,计算机视觉国际大会ICCV与国际计算机视觉与模式识别会议CVPR、欧洲计算机视觉国际会议ECCV并称为计算机领域世界三大顶级学术会议,每两年举办一次。其中,ICCV2025年投稿量达11239篇,录用率为24%。上述两篇论文代表了小米AI团队在基座大模型领域的最新探索成果,其中视频理解大模型核心技术Q-Frame由小米AI团队全面自研,大模型持续学习框架Any-SSR由小米AI团队联合华南理工大学攻关。

全自研视频理解大模型核心技术Q-Frame

在视频理解大模型(Video-LLMs)的研究中,小米AI团队针对传统“均匀帧采样”处理方式存在时间碎片化信息丢失、盲目采样及算力浪费等问题痛点,推出全自研的Q-Frame核心技术,该成果以论文《Q-Frame:Query-awareFrameSelectionandMulti-ResolutionAdaptationforVideo-LLMs》入选ICCV2025。

Q-Frame作为视频理解大模型核心技术,是行业首个动态帧选择与分辨率自适应框架,也是首个无需训练,市面上各类视频理解大模型基座均可即插即用的算法框架。Q-Frame拥有三大行业首次创新,能够精准理解视频内容与用户问题,通过精准捕捉跟用户问题最相关的视频关键内容,将有效信息量提升5倍:

跨模态查询检索(Cross-modalQueryRetrieval,CQR)

查询感知帧选择(Query-awareFrameSelection,QFS)

多分辨率自适应(Multi-ResolutionAdaptation,MRA)

在MLVU评测集上,Q-Frame使Qwen2-VL的理解准确率从55.5%提升至65.4%;在LongVideoBench上,让GPT-4o的准确率从53.3%提升到58.6%。此外,其多分辨率自适应特性可根据内容重要性和查询需求动态调整帧分辨率,避免算力浪费。

通过采用动态查询感知帧选择和多分辨率自适应,Q-Frame还有效解决了「均匀帧采样」策略下时间碎片化的信息丢失、问题无感知的盲目采样和分辨率一刀切的算力浪费三大难题。与传统均匀选帧、统一处理方式不同,在有限计算资源下,Q-Frame可使模型更高效准确理解视频。

此外,Q-Frame具有即插即用(plug-and-play)的特点,可与市场上现有的各类视频理解大模型兼容,无论是开源模型还是闭源模型,无需对模型进行额外的训练或微调。以VILA-V1.5和Qwen2-VL等开源模型为例,在集成Q-Frame后,这些模型在视频理解任务上的性能均得到了显著提升。同样,对于闭源的GPT-4o模型,Q-Frame也展现出了良好的兼容性,进一步证明了其广泛的适用性。

Q-Frame在小米「人车家全生态」战略中有着多元的应用场景,目前正在持续探索和落地:小米YU7发布时提到的哨兵模式中,能够分清楚普通的风吹草动和可能带来剐蹭、碰撞的危险行为;智能家居中,能够在监控画面中找到最关键的画面,帮助用户解答问题;在小爱视频问答场景中,可以直接定位到视频中能够解答问题的片段开始播放等。

大模型持续学习框架Any-SSR

在大语言模型(LLMs)持续学习(ContinualLearning,CL)领域,往往会因新任务的学习而导致对旧任务知识的遗忘,即灾难性遗忘问题。小米AI团队联合华南理工大学针对这一难题开展研究,其成果《AnalyticSubspaceRouting:HowRecursiveLeastSquaresWorksinContinualLearningofLargeLanguageModel》成功入选ICCV2025。

Any-SSR框架作为行业首个将递归最小二乘法(RecursiveLeastSquares,RLS)引入大语言模型持续学习的技术框架,通过分析路由机制,动态地把不同任务分配到独立子空间学习,避免任务间知识干扰,创新性解决了大语言模型持续学习中灾难性遗忘问题。同时,利用低秩适应(Low-RankAdaptation,LoRA)与分析路由相结合的方式,实现了新旧知识的无缝整合与动态学习。

在一系列技术创新的基础上,Any-SSR方法实现了“近乎完美”的知识保留(即不遗忘),同时能无缝地学习新知识。在实验中,Any-SSR在TRACE基准测试上的表现显著优于其他方法,包括多任务学习(MTL)等,不仅在整体性能(OP)上取得了优异成绩,还实现了零反向知识转移(BWT)。

IT之家从小米技术获悉,过去五年,小米集团研发投入约1020亿元,在2025年的300亿研发投入中,大约有四分之一将被用于AI相关方向。未来五年(2026-2030年),小米还将在核心技术赛道再投入2000亿元。

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。

责编:林诗康编辑

被魏大勋下车视频硬控

  国家防灾减灾救灾委员会办公室、应急管理部会同国家粮食和物资储备局向河北、山西、内蒙古、山东、河南5省(区)调拨3万件中央救灾物资,支持地方做好抗旱救灾各项工作。

中国女排比意大利女排

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。

张凌赫王老吉品牌全球代言人

  2024年,西安机场旅客吞吐量4703.04万人次,排名全国第11位;乌鲁木齐机场旅客吞吐量2776.57万人次,排名全国第18位。西安去年GDP为13317.78亿元,排名全国第21位;乌鲁木齐去年GDP仅为4502.16亿元,排名全国第74位。

柯南稳中带神

  李瀚明表示,乌鲁木齐机场的国际航线虽然多,但不强。比如国际航班量占比较少,国际航班密度不够,国际航线集中在中亚、西亚。香港航线实际上是乌鲁木齐唯一一条向东直飞的国际和地区航线。

最难喝的奶茶

  阿里巴巴向《环球时报》记者提供的数据显示,郑钦文的球拍、潘展乐的泳镜……这些冠军同款装备已登上淘宝热搜,卖爆天猫。其中郑钦文夺冠同款网球拍高居淘宝热搜第一名。自8月3日郑钦文夺冠至8月5日樊振东夺冠,其间超200万人在天猫搜索了“小球”品类相关商品,其中网球相关装备搜索量同比增长300%,“郑钦文同款”专业网球拍V14,48小时内收到了超4万人的问询,超3000人加购,成交量同比暴涨超2000%,成为天猫网球类目成交TOP1商品。不仅如此,就连郑钦文夺冠现场教练穿的“加油服”也火出圈。

岁智力残疾女孩遭性侵产女

  纪宁说:“欧美国家的网球市场已逐渐进入饱和阶段,中国被认为可能带来新的爆发性增长点。”他认为,在中国这个网球新兴市场,应更充分地挖掘体育明星的商业价值。“这有利于全面释放中国体育经济的增长潜力。”/p>

奶茶冰块脏

  青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。/p>

哥嫂要复婚要求小姑子迁走户口

  靳东,1976年出生于山东省,毕业于中央戏剧学院,国家一级演员,曾获得“青年五四奖章”先进个人、“全国德艺双馨电视艺术工作者”等荣誉称号。他还是第十四届全国政协委员。