AI 语音爆发的这半年 一位局中(人看到的)赛道爆发逻:;辑

2025-07-26 03:39:40      来源:华西都市报

过去半年,「AI语音」赛道正密集地获得融资。尤其引人注目的是,这些融资多为大额,并且投向早期团队。

比如,前不久AI语音应用WisprFlow靠「默念输入」,完成了3000万美元的A轮融资,累计融资额已达5600万美元;语音模型公司Cartesia在3月份完成了6400万美元的A轮融资,累计融资9100万美元;AI语音合成公司ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资,估值超过30亿美元。

与此同时,无论是Meta、OpenAI、Google等科技巨头,还是MiniMax等创业公司,都在密集发布自己的语音模型或语音产品。Siri也被曝出或将被ChatGPT或Claude等模型接管,来跟上语音交互的进展。

这些消息无一例外都指向了AI语音的火爆。

为什么过去半年多以来,AI语音领域会如此集中地爆发?

声智副总裁黄赟贺认为,语音对话从一个App中的功能模块,迅速进化为AI时代入口级别的存在,与大模型的加持有极大关系。

在智能音箱红极一时的年代,大部分我们熟知的智能音箱品牌都搭载了声智的远场声学交互技术,比如小爱同学、天猫精灵、小度音箱等等。而「小爱小爱」的唤醒词,实际上也是来自于声智。

这家公司创办于2016年,一直在声学+AI交叉领域探索。然而,作为一家在幕后提供AI声学技术的公司,在大模型浪潮来临之后,果断选择下场投身开发自己的C端产品。毫无疑问,他们看到了这波「大模型+语音」浪潮里新的商业机会,其旗下的AI耳机目前出货量已接近100万套。

前不久,极客公园与声智副总裁黄赟贺聊了聊AI语音市场的爆发逻辑、语音交互的「卡点」,以及它将如何影响我们的未来。

以下内容根据黄赟贺的讲述和声智的论文整理而成:

AI语音为何现在爆发了?

最近两年,越来越多的AI语音初创团队获得大额融资,集中爆发。

其中,一个很重要的推动因素是,大模型让声音这项基础能力首次实现了「可编程化」。

「可编程化」这个词,意味着将一种能力或者一个对象,通过清晰的接口和逻辑,变得可以被代码自由地调用、组合、修改和控制。过去,文字是可编程的,图像是可编程的,甚至视频也是可编程的(比如视频编辑软件)。

但声音更多的是一种「输入」或「输出」的介质,其内部的复杂结构和信息,很难被软件直接「编程」和「理解」。

传统的语音识别,更多是把声音转换成文字,然后对文字进行处理。

比如,之前在深圳、成都有很多做声音标注的团队,拿到语音之后,再人工转换成文字,打上不同的标签,比如各种特征、意向的标签。

大模型来了之后,打标签的这项工作可以交给大模型,它比大量的人工团队标得快和准。

以前做NLP的背后都是一堆苦逼的运营在那里打标签,让AI系统能够识别每个句子的意向。过去,语音的开发,每增加一个功能,都需要从头写代码,费时费力。比如,想让智能音箱支持「点外卖」,得单独开发一套语音识别和语义逻辑,成本高、周期长。

而现在AI大模型可以解决了。

更重要的,依靠大模型对多模态数据的深度理解能力,对声学信号的更细致解析,使得声音本身携带的除了文字信息之外的更多信息,开始被AI系统直接捕捉、理解和「编程」。

这种可编程化,意味着AI可以像处理数据一样处理声音。它可以分析声音的频率、振幅、波形,提取出情绪特征、识别不同的声源、声源距离、甚至预测你的意图。

这时,声音包含的不再仅仅是「你说了什么」,更是「你如何说」、「你在哪里说」、「谁在说」以及「你说了之后希望发生什么」。

由此,声音也成为了真正的交互引擎。

真正的语音交互,不是「Voice」而是「Sound」

其实,很多人以为,语音交互就是「Voice」(语音)。但其实Voice这个词是一个狭窄概念。真正的语音交互,核心不是「Voice」,而是「Sound」(声音)。Sound里面包含了Voice。

具体来说,「Sound」包含了更丰富的元素:语调、音色、节奏、情绪,更重要的是环境音。环境音里面可能包含了环境中的各种非语音信息,比如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声)、以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。

比如说,你咳嗽的时候,跟AI说话,它可能会识别出咳嗽,然后跟你说多喝水;比如,你在咖啡馆说,「帮我找个安静的地方」,AI不仅要理解你的指令,还要从背景音中判断出你当前的环境嘈杂,从而推荐附近的图书馆。

当我说「下一代对话交互的入口并非『Voice』,而是『Sound』」时,我指的是AI系统将不再仅仅依赖于识别你说的「词」,而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。

只有当AI能够全面感知并解析「Sound」中包含的这些多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」,它不仅仅是「听懂」字面意思,更是「听懂」你的「言外之意」和「心声」。

语音交互的「卡点」,大厂烧钱也没用

尽管大模型带来了语音交互的巨大飞跃,但语音交互当下依然存在一个核心的「卡点」,而这个卡点根植于物理学,具体来说,就是声学。

我们常说「听清、听懂、会说」。「听懂」和「会说」的能力,正在被大模型以前所未有的速度提升。但「听清」这个最基础的环节,却受到物理层面的制约。如果AI听不清你的指令,即便它能「听懂」再复杂的语义,能「会说」再动听的话语,那也都是空中楼阁。

比如说当下最热门的具身智能,现在很多机器人都是电驱动的,那么它带来几个大问题,一方面是电路的噪声本身就很大,另一方面是关节噪声,还有就是很多机器人是金属材质,厚厚的,声音在穿透时会大幅衰减。

所以,机器人动起来的时候,噪声很大,尤其在室外,更难听清楚人的指令。要么大声喊,或者拿麦克风喊。因此,现在很多机器人都要靠遥控器来控制。

这方面,其实就需要对声学层面的突破,比如说环境噪声的抑制,比如电路底噪的抑制,还有啸叫的抑制、混响回响的抑制等等。

而这些就是物理学科的逻辑,它需要数据样本,需要knowhow的壁垒,不仅是技术问题,而是时间的问题,需要时间去采集声音、做训练。

这不是烧钱能解决的。

让AI准确地「听清」用户的指令,依然是一个世界级的难题。而声学相关的人才很少,所以像谷歌、微软、苹果经常会收购声学技术的初创公司,几乎只要出来一家就会收购他们。

大家都明白,要构建真正的下一代人机交互系统,拥有核心的声学能力是基石。

语音交互的下一站,是实现「共情」

现在很多AI应用的日活、留存不高,有个很大的原因就是普通人本身是不会提问的,让人向大模型提问,这本身就是一个非常高的交互门槛。

好的提问还需要学识、表达等基础,所以停留在文字层面的问答,本身就是一种门槛限制。

而语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的「共情模式」。

如果把语音交互比作一个「UI界面」,那这个界面会长什么样?我们可以做个推演,它的构成要素可能会有:

情绪识别:AI通过分析语调、音量、语速,判断用户的情感状态。比如,你的声音颤抖,AI可能推测你在紧张或伤心。

意图理解:不仅听懂你说了什么,还要明白你想做什么。比如,你说「播放音乐」,AI会根据你的情绪,决定是放摇滚还是古典。

声纹识别:通过独一无二的音声波特征,区分不同用户。比如,家里的智能音箱能自动切换到「孩子模式」模式,只为孩子的声音提供安全的回应。

情绪生成:AI的回应需要带有情感化的表达。比如,用温暖的语气说「别担心,我来帮你解决」,而不是机械的「好的,正在处理」。

这些要素的背后,是AI从「功能导向」到「情感导向」的转变,AI会与人实现共情。这种交互,能显著提升长时间交互的质量和亲密感。

不仅如此,从狭义的「Voice」拓展到广义的「Sound」,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以去构建一个「声学世界模型」。

这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要「听清」和「听懂」,更要具备「声学常识」和「声学推理」的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。

未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再「失聪」和冰冷。这也是我们正在做的。

  兰州机场T1+T2面积8.9万平方米,去年吞吐量超过1700万人次,可以说不堪重负。乌鲁木齐机场T1+T2+T3面积18.48万平方米,需要承载超过2700万人次的吞吐量。

责编:谢宜容编辑

以色列要求全境民众进避难所

  西安咸阳机场T5,与北京大兴机场、成都天府机场航站楼面积相当。三座机场中规模最小的兰州中川机场T3,面积也相当于上海虹桥机场两座航站楼之和。

习近平会见新西兰总理拉克森

  受高空低槽东移影响,16日河南省有分散性阵雨、雷阵雨,雨量分布不均,中西部局部中雨或大雨,并伴有短时强降水、雷暴大风等强对流天气。

马嘉祺难听

  北京、上海、广州是3大全方位门户复合型功能的国际航空枢纽,成都、深圳、重庆、昆明、西安、乌鲁木齐、哈尔滨是7大区位门户复合型功能的国际航空枢纽。

马嘉祺难听

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

藏海传热播绝非偶然

  [环球时报综合报道]“一段时间以来,比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称,美银证券汽车产业分析师约翰·墨菲当天在美国汽车媒体协会有关活动中表示,美国底特律三巨头(即通用汽车、福特汽车和斯特兰蒂斯)应“尽快”退出中国市场。他同时警告说,美国三大车企需要采取更严厉的措施削减开支,尤其是在内燃机业务方面,因为这是目前利润的主要来源。

现在就出发

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。/p>

以色列全境响防空警报

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。/p>

桃黑黑今天没法直播了

  6月21日,中央纪委国家监委发布消息,自然资源部原党组成员,中国地质调查局原党组书记、局长钟自然被开除党籍,涉嫌受贿、故意泄露国家秘密犯罪问题移送检察机关依法审查起诉。