科大讯飞，让AI更通人性正观新闻

作者丨茯神编辑丨九黎

生成式AI席卷全球的浪潮下，国内的“百模大战”经历了大力出奇迹的拼性能阶段，正在迈入比落地、比应用的场景化之争。

手机上模仿ChatGPT而诞生的各类问答助手，虽然能做到千人千面却难免有些审美疲劳。相较之下，以不同形式的载体融入人们工作生活之中的智能硬件，尤其是异军突起的具身机器人产品，更能彰显人机共生的未来雏形。

从著名的莫拉维克悖论中可以看出，AI就像是一个高智商的“偏科生”，想要给AI加入一点理性逻辑之外的情商，恰恰是最难的地方。目前，让AI担任一个有问必答的助手或许已经合格，那么如何再进一步，使其摇身变成一位共同生活工作的伙伴，就需要在人机智能交互方面更深入地突破传统。

作为中国人工智能产业的第一批探索者，科大讯飞在6月12日的智能交互产品升级发布会上，一口气拿出了AIUI、机器人超脑、虚拟数字人和讯飞星辰四大全面升级后的开发平台，以赋能开发出更强的智能软硬件产品，聚焦儿童教育、家庭娱乐、办公、人力和企业数字化等领域，发布了十大标杆场景方案。

科幻感爆棚的展区内，100+黑科技新品仿佛被赋予了灵魂，与参展观众互动交流谈笑风生。它们在重塑大模型时代的智能交互范式上迈出一大步，让每一个人距离变身为心中的“赛博浪客”又近了一些。

给工具加点“情商”

以语音方式进行人机智能交互的大前提，必须建立在机器听得清且听得懂的基础上。

传统的语音交互技术在复杂环境下的收音识别、语义理解上，即使实现了极高的成功率，但一次失败的体验就会让用户望而却步。科大讯飞在语音技术领域深耕二十余年，更是深谙此道，2015年就发布的AIUI人机交互平台正是其沉淀了多年的技术结晶，目前在其基础上开发运行的终端设备数量已达到了22.5亿。

冲破瓶颈的契机，来自于AI大模型技术的应用。全新的AIUI平台以讯飞星火大模型为引擎进行技术升级，发布会上亮相的全双工拟人交互方案，不仅能够在嘈杂环境中精准捕捉到有效指令，还赋予了硬件产品情绪识别、创意生成与深度语义理解等类人多模态能力。

比如存在多人的客厅场景中，搭载了AIUI技术方案的智能音箱，就可以一边屏蔽掉非人声的环境音影响，一边识别到包含相关指令的语音内容，并且会在用户有迟疑、等待、附和时主动延长拾音；而从接收到反馈的端到端响应仅需1.6秒，以此提供更高效、更具温度的智能体验。

再放到愈发常见的智能眼镜产品上，发布会现场科大讯飞演示了最新的 “ 三麦阵列降噪 ” 方案，专门为户外移动场景设计。在能够听得更加清楚后，智能眼镜在丰富的大模型能力加持下，游刃有余地在实时翻译、专业导游、健康助理三重角色之间无缝切换，就像是一位同行的真人伙伴。

不过，随着智能硬件走进儿童陪伴成长的场景之中，语音交互又迎来了“童言童语”的挑战。想要给玩具们施加一道 “ 活过来 ” 的魔法，需要针对幼儿发音模糊、叠字代替正常词汇、重复表达信息等常见特征，进行特定方向上的强化训练。

为此，科大讯飞儿童群体首发推出儿童专属交互方案。一方面专攻逻辑跳跃、音字不准的识别，另一方面不忘情绪信号与认知逻辑的匹配，在懂孩子的同时还能积极回应、引导孩子的情绪。双方的对话内容听起来不再像儿童对玩具的发号施令，而更像是两个玩伴间的亲密互动。

另外，在内置了孙悟空等经典IP和海量严选内容生态之余，科大讯飞还推出了适用于多种场景的玩具开发套件，如毛绒玩具、 IP潮玩、桌面机器人等。发布会现场由几位宝爸参加的一个60分钟极速开发挑战，足以证明了低门槛低成本的平台价值。

让机器人“开口”

智能音箱、智能眼镜和儿童玩具，都属于消费级的智能语音交互场景，而科大讯飞的情怀少不了对产业侧的赋能。最近风头正劲的具身智能机器人赛道，自然成了不二之选。

今年春晚上，扭秧歌火出圈的宇树机器人已经家喻户晓。同样由其出品的宇树G1，在登上此次科大讯飞智能交互产品升级发布会的舞台时，一边挥舞金属手臂一边 “开口” 欢快地跟观众打招呼，再度令人惊艳了一把。其中的奥秘，竟然只藏在了机器人背后一个书包模样的盒子中。

这款属于讯飞机器人超脑平台上的全新技术方案“智能语音背包”，可以即插即用无需改造硬体，就像在U盘里藏了一位“腹语师”，随时随地接入即可打通运动控制和业务逻辑。

让机器人即时“开口”还只是前菜。宇树G1随后在现场打起了不属于秧歌舞的太极拳，做着一板一眼的动作同时，还能插科打诨配合演示人员说上几句有梗的笑料，对于活动氛围的调动不可谓不老练。这秒变社交达人的背后，就是讯飞超脑2030技术底座的发力。

2022年就推出的机器人超脑平台，本质上是为了给机器人打造一个能听会说、能理解会行动的中枢系统，已经成为500多家机器人客户的共同选择。如今在融合了视听感知交互能力与基于大模型的机器人大脑，构建出“端-云协同”的AI架构。

在端侧，超脑平台可以提供多模态降噪、人脸识别、物体检测、端侧大模型等本地感知与计算能力；在云端，依托语音大模型与具身智能技术，就能实现“察言观色”的类人化交互与复杂任务理解。

比如在常见的工厂巡检场景中，工业机器人需要自动巡查设备运行状态，发现异常及时上报。而在检测设备故障、识别安全隐患的过程中，就必须依赖语音、人像、物体等多模态的识别、认知和判断能力。

再看服务机器人领域，智元机器人旗下的远征A2人形机器人，在讯飞超脑的赋能下摇身一变为4S店迎宾机器人，既做到对顾客主动感知、主动迎宾，又能结合专业汽车知识库提供车型参数问询、促销活动讲解，还可以基于大模型进行趣味互动，为顾客提供具有科技感的购车和交付体验。

人形机器之外，普及更广的四轮、双足、轮式机器人等产品形态，讯飞超脑平台都提供了定制化的交互方案。而当遇到所有机器人都最怕的断网或弱网环境，讯飞离线交互套件也可以一键解决，让所有交互、识别都在端侧完成。

科大讯飞为了加速对机器人产业的赋能进程，“ 具身智能训练一体机 ”也应运而生，将数据采集、训练推理等一系列复杂过程，集成到一台机器上全部完成。

做最全面的AI

发家于语音合成技术，在“百模大战”中脱颖而出的科大讯飞，争的不是流水之先，而是滔滔不绝。被AI大模型浪潮催生出的虚拟人和智能体两大风口，同样成为其四大开发平台中的砥柱。

大会现场，讯飞开放平台总经理赵艳军通过照片和语音生成的数字分身，竟丝滑流畅地接管了舞台演示，让人感受不到一丝违和。呈现在带移动底座的55寸OLED透明屏上的数字人“小雨”，可以按照提前制作好的动线自主移动，不管是面对工作人员还是临时嘉宾，都能随机应变对答如流，近乎完美地承担了导览职责。

与电商平台上应用颇多的数字人主播不同，科大讯飞的虚拟人交互平台依托领先的多模态感知与生成技术，正在掀起一场数字人构建的 “ 极简革命 ”。

输入一句录音、上传一张图片，用户即可生成专属的数字分身。这种 “ 分钟级 ”的创建效率才能填平普通大众面前的技术鸿沟。也正是得益于此，平台上已积累超过 100万的声音复刻用户，超过 10万的数字分身资产；还深度赋能了媒体、教育、文旅、金融、政务等千行百业，并获得了信通院L5等级认证。

面向智能体方向的星辰Agent，则是低门槛一站式的大模型精调与智能体构建平台，在全栈自研的星火大模型之外，还广泛兼容DeepSeek等业界主流的开源大模型，进一步助力企业高效构建专属大模型和智能应用。

而针对解决模型贴合场景需求的星辰MaaS，通过一站式精调工具链将行业数据转化为专属模型。在与Agent的协同下，二者可以打造出“模型精调-智能体开发-场景落地”的闭环生态。

依托于此，一系列聚焦于办公、人力、企业数字化场景的智能产品服务被开发出来。升级后的讯飞智文从PPT工具拓展为智能文档平台；讯飞绘文和讯飞绘镜则可以帮助新媒体岗位一站式快速完成选题、图文、视频等内容创作的范式；星火纪要、星火陪练、星火快答、星火投标、讯飞智聘等针对 B端的应用，从多个方面全方位地赋能企业智能化，提升运营效率。

不难发现，科大讯飞几乎没有错过任何一个AI大模型落地场景的可能性。据数据机构Xsignal奇异因子统计，仅在C端方向上，科大讯飞就覆盖了11个核心赛道，共计有27款AI应用通过APP和Web端全面铺开；在To B和To G市场上更是领跑同行，数据显示其累计中标项目已超130个，总金额突破14亿元。

从15年前业界首个语音云的发布，到AIUI、机器人超脑等平台的相继问世，科大讯飞终于在大模型时代以星火大模型为核心，将各项语音智能技术融会贯通聚沙成塔。一棵代表人机智能交互的生态大树拔地而起，这一片最全面的AI森林也愈发郁郁葱葱。

特此声明

本文为正观号作者或机构在正观新闻上传并发布，仅代表该作者或机构观点，不代表正观新闻的观点和立场，正观新闻仅提供信息发布平台。

分享至

科技新知

科技新知官方

+ 关注

查看更多文章

0/300

还没有评论，快来抢沙发吧！

历史搜索

当前热榜

科大讯飞，让AI更通人性

科技新知

科大讯飞，让AI更通人性

科技新知

发表评论

最新评论