解析微软所提出的人与智能体沟通中的挑:战!

2025-07-26 13:46:26      来源:大河报

微软在最新研究中提出了一系列关于人机交互的核心挑战:我们该如何理解AI的意图?如何建立信任?又如何在不对称的信息结构中实现高效协作?本文将深入解析这些挑战背后的技术与认知逻辑,带你重新审视“对话式AI”时代的人机关系边界。

当前的智能体已不再是简单的聊天机器人,而是能够观察环境、调用工具,并与其他智能体沟通以解决问题的复杂系统,这种进化使其在广泛任务中展现出巨大潜力。

然而,这种能力的跃升并非没有代价。正如微软研究院在发布的论文《人与智能体沟通中的挑战》中指出的那样,它们的复杂性和广泛的失败模式给人类与AI的交互带来了新的挑战。

本文将清晰易懂地剖析人与智能体沟通中的12个关键挑战。

沟通的“雷区地图”

在《人与智能体沟通中的挑战》中,微软的研究者们形象地绘制了一幅人与智能体沟通时可能遭遇的“雷区地图”。

该框架借鉴了沟通理论中的“共同基础”概念,将12个挑战归纳为三大类:

1.普适性的人与智能体沟通难题(X1-X4):贯穿人与智能体交互始终的沟通障碍,具有普遍性。

2.用户向智能体传递信息(U1-U3):核心在于如何确保AI准确无误地理解用户的意图和需求。

3.智能体向用户传递信息(A1-A5):核心在于AI如何清晰、有效地将自身状态、行为和结果传达给用户。同时,这些挑战还分布在沟通交互过程的“之前”、“之中”和“之后”三个不同阶段。

我们在下表中详细列出了12个关键挑战:

那接下来,对这些挑战进行深入的分类探讨。

12大挑战解析

普适性难题(X1-X4):AI交互中挥之不去的“幽灵”

这些挑战普遍存在于各类人与智能体的沟通场景中,是设计任何AI交互系统时都需要面对的基础性问题。它们共同构成了建立用户信任、确保交互透明以及实现有效控制的基础。

X1:智能体应如何帮助用户验证其行为?

核心问题:智能体在处理复杂任务时,出现失误在所难免。因此,用户需要有效的方法来确认智能体是否准确理解了指令,以及智能体正在执行或计划执行的动作是否真正符合其预期。

X2:智能体应如何传达一致的行为?

核心问题:AI行为的不一致性(或用户感知到的不一致性)会逐步侵蚀用户的信任度。这种不一致可能源于AI与环境或其他智能体交互所产生的复杂动态,或是AI的行为模式与用户的心智模型不相符等。

X3:智能体应如何选择合适的细节详略程度?

核心问题:如何在确保用户能够验证智能体行为、避免混淆与防止因信息过多导致用户认知负担之间寻求微妙的平衡。

X4:智能体在沟通时应考虑哪些过去的交互?

核心问题:智能体如何有效利用丰富的历史交互数据,来优化当前的沟通。确保智能体能够精准聚焦于与当前指令最相关的部分,同时有效地管理可能包含敏感内容的数据并保护隐私,是日益严峻的挑战。

这些普适性挑战共同指向了人机交互中“信任-透明-控制”这一核心三角关系。

我们需要告诉AI什么(U1-U3):让AI听懂我们的“心声”

这类挑战主要关注用户如何才能有效地向智能体传递其意图、偏好和反馈等关键信息。

U1:智能体应该实现什么目标?

核心问题:用户需要清晰、无歧义地向AI表达他们的目标和意图。自然语言的模糊性和不精确性容易导致AI产生误解,从而对目标的理解出现偏差。这凸显了在人将意图传递给AI的过程中存在的“语义鸿沟”——人的意图往往是微妙、隐含且依赖上下文的,而AI的理解则可能更为字面和受限。

U2:智能体应该尊重哪些偏好?

核心问题:对于同一个高级目标,通常存在多种可行的实现路径或解决方案。然而,基于用户的个性化偏好、特定约束或“红线”,某些方案会明显更符合用户预期。因此,挑战的核心在于,用户如何才能清晰、便捷地表达这些偏好,特别是那些与常规的规范或默认设置有所不同的个性化需求。

U3:智能体下次应该如何改进?

核心问题:即便AI初步理解了用户的目标和偏好,它在执行过程中仍有可能犯错或表现不佳。因此,用户如何能够有效地提供反馈,以引导AI的行为,帮助其从错误中学习并持续改进未来的表现,就显得至关重要。人机交互不仅是一次性的指令下达,更是一个持续的、迭代的反馈与学习过程。

AI告诉我们什么(A1-A5):揭开AI的“内心”与行动面纱

A1:智能体能做什么?

核心问题:如果用户不能充分了解智能体的具体能力范围或其固有的局限性,他们就无法就何时以及如何最有效地利用其协助做出明智的决策,也无法在使用时建立合理的预期。

A2:智能体将要做什么?

核心问题:为了达成某个复杂目标,AI可能会自主规划并分步执行大量且耗时的动作。在执行这些动作之前,特别是那些具有不可逆性、可能违反用户偏好或涉及较高风险的动作,AI应如何以及何时向用户清晰地沟通其行动计划,以获取用户的许可或修正反馈。

A3:智能体当前正在做什么?

核心问题:当AI处于行动过程中时,用户如何能够实时理解它当前正在执行的具体操作,这些操作会产生什么即时影响,以及用户是否应该在必要时介入以调整或中止其活动。该挑战与A2的关键区别在于沟通的时间点:A2关注行动前的计划沟通,而A3关注行动执行过程中的状态同步。

A4:是否产生了任何副作用或环境变化?

核心问题:用户如何能够有效监控AI对其所操作环境(例如本地磁盘文件、操作系统设置等)所做的关键更改,特别是那些可能带来负面影响或违反社会规范的更改。随着智能体对外部环境影响能力的增强,AI不仅要完成任务,还需要对其行为后果负责,并主动向用户报告这些影响。

A5:目标是否已达成?

核心问题:当用户向AI指定一个高级别的、可能较为抽象的目标,AI通过执行一系列复杂的计划来尝试达成该目标后,系统需要向用户有效传达相关信息,使得用户能够依据自己的标准和判断依据来验证目标是否已圆满完成。

挑战的总结

审视这12个挑战,可以清晰地发现它们并非孤立存在,而是相互交织、彼此影响。这种内在的复杂联系意味着,试图解决这些挑战的方案往往需要具备整体性和系统性的考量。

更进一步看,虽然许多挑战在传统的人机交互(HCI)和AI研究领域早已被关注和提及,但生成式AI和工具型智能体的兴起,无疑放大了这些挑战的严峻性和复杂性。这些模型的“黑箱”特性、输出结果的内在随机性以及其所具备的广泛能力范围,使得实现运作过程的透明化和进行有效的双向沟通变得尤为困难。

当问题的规模和性质发生了根本性的转变,原有HCI体系下的一些设计原则和解决方案可能已无法完全应对当前的需求,迫切需要新的设计模式和交互原则,而这也正是我们HAI(Human-AgentInteraction)所探究的核心议题。

预告

面对上述挑战,微软研究院并未止步于理论分析,而是着手构建了一个实验平台,为在真实环境中深入研究上述的12个关键挑战提供了具体的载体和试验田。

那下一篇,我们来看看微软是如何尝试解题的。

参考文献

GaganBansal,JenniferWortmanVaughan,SaleemaAmershi,EricHorvitz,AdamFourney,HusseinMozannar1,VictorDibia,andDanielS.Weld.“ChallengesinHuman-AgentCommunication”(2024)

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

  在四川之前,河南、内蒙古、浙江、江西的省级党委科技委员会已经亮相。河南、吉林和四川的省委科技委员会,都是由省委书记和省长担任主任。

责编:毛采波编辑

婚检查出重大疾病医院仅告知本人

  当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!

习近平会见新西兰总理拉克森

  李鹏新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予李鹏新开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

歌手

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。

张真源撕名牌拼到最后一刻

  陈玉祥严重违反党的组织纪律、廉洁纪律、工作纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予陈玉祥开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

陈楚生摇滚

  随着参与网球运动的人逐渐增多,中国网球的基础设施也在不断完善。纪宁告诉《环球时报》记者:“我们在做一个项目,在北京朝阳区规划一个‘大满贯网球文化公园’,将汇集所有大满贯要素。人们既能在此观看全球顶级赛事,也能在场地上训练和比赛。”纪宁说,这仅是一个案例,但从中可以窥见中国网球运动基础设施越来越完善,也越来越专业化。作为体育产业的参与者与观察者,纪宁表示,不仅北京,全国各地网球运动设施也发展得越来越好。

沈梦辰没读热搜

  6月13日9时,国家防总针对广西、福建启动防汛四级应急响应,派出两个工作组分赴广西、福建协助指导;新增针对河北、内蒙古启动抗旱四级应急响应,并继续维持针对河南、山东的抗旱四级应急响应,两个工作组正在两省协助指导。/p>

今天是天猫最后一天

  以西安咸阳机场为例,扩建后拥有4座航站楼,航站楼面积高居国内前5。但西安咸阳机场去年旅客吞吐量排在全国第11位,西安去年GDP仅排在全国第21位。/p>

歌手

  2013年,早在“一带一路”倡议提出时,对新疆的定位是:丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心,打造丝绸之路经济带核心区。对陕西、甘肃、宁夏、青海的定位则为:面向中亚、南亚、西亚国家的通道、商贸物流枢纽、重要产业和人文交流基地。