作者丨茯神 编辑丨九黎

生成式AI席卷全球的浪潮下,国内的“百模大战”经历了大力出奇迹的拼性能阶段,正在迈入比落地、比应用的场景化之争。

手机上模仿ChatGPT而诞生的各类问答助手,虽然能做到千人千面却难免有些审美疲劳。相较之下,以不同形式的载体融入人们工作生活之中的智能硬件,尤其是异军突起的具身机器人产品,更能彰显人机共生的未来雏形。

从著名的莫拉维克悖论中可以看出,AI就像是一个高智商的“偏科生”,想要给AI加入一点理性逻辑之外的情商,恰恰是最难的地方。目前,让AI担任一个有问必答的助手或许已经合格,那么如何再进一步,使其摇身变成一位共同生活工作的伙伴,就需要在人机智能交互方面更深入地突破传统。

作为中国人工智能产业的第一批探索者 ,科大讯飞在6月12日的智能交互产品升级发布会上,一口气拿出了AIUI、机器人超脑、虚拟数字人和讯飞星辰四大全面 升级后的 开发平台, 以赋能开发出 更强的 智能软硬件产品,聚焦 儿童教育、家庭娱乐、 办公、人力和企业数字化等领域,发布 了 十大标杆场景方案。

科幻感爆棚的展区内,100+黑科技新品仿佛被赋予了灵魂,与参展观众互动交流谈笑风生。它们在重塑大模型时代的智能交互范式上迈出一大步,让每一个人距离变身为心中的“赛博浪客”又近了一些。

给工具加点“情商”

以语音方式进行人机智能交互的大前提,必须建立在机器听得清且听得懂的基础上。

传统的语音交互技术在复杂环境下的收音识别、语义理解上,即使实现了极高的成功率,但一次失败的体验就会让用户望而却步。科大讯飞在语音技术领域深耕二十余年,更是深谙此道,2015年就发布的AIUI人机交互平台正是其沉淀了多年的技术结晶,目前在其基础上开发运行的终端设备数量已达到了22.5亿。

冲破瓶颈的契机,来自于AI大模型技术的应用。全新的AIUI平台以讯飞星火大模型为引擎进行技术升级,发布会上亮相的全双工拟人交互方案,不仅能够在嘈杂环境中精准捕捉到有效指令,还赋予了硬件产品情绪识别、创意生成与深度语义理解等类人多模态能力。

比如存在多人的客厅场景中,搭载了AIUI技术方案的智能音箱,就可以一边屏蔽掉非人声的环境音影响,一边识别到包含相关指令的语音内容,并且会在用户有迟疑、等待、附和时主动延长拾音;而从接收到反馈的端到端响应仅需1.6秒,以此提供更高效、更具温度的智能体验。

再放到愈发常见的智能眼镜产品上,发布会现场科大讯飞演示了最新的 “ 三麦阵列降噪 ” 方案,专门为户外移动场景设计。在能够听得更加清楚后,智能眼镜在丰富的大模型能力加持下,游刃有余地在实时翻译、专业导游、健康助理三重角色之间无缝切换,就像是一位同行的真人伙伴。

不过,随着智能硬件走进儿童陪伴成长的场景之中,语音交互又迎来了“童言童语”的挑战。想要给玩具们施加一道 “ 活过来 ” 的魔法,需要针对幼儿发音模糊、叠字代替正常词汇、重复表达信息等常见特征,进行特定方向上的强化训练。

为此,科大讯飞儿童群体首发推出儿童专属交互方案。一方面专攻逻辑跳跃、音字不准的识别,另一方面不忘情绪信号与认知逻辑的匹配,在懂孩子的同时还能积极回应、引导孩子的情绪。双方的对话内容听起来不再像儿童对玩具的发号施令,而更像是两个玩伴间的亲密互动。

另外,在内置了孙悟空等经典IP和海量严选内容生态之余,科大讯飞还推出了适用于多种场景的玩具开发套件,如 毛绒玩具 、 IP潮玩 、桌面机器人等。发布会现场由几位宝爸参加的一个60分钟极速开发挑战,足以证明了低门槛低成本的平台价值。

让机器人“开口”

智能音箱、智能眼镜和儿童玩具,都属于消费级的智能语音交互场景,而科大讯飞的 情怀 少不了对产业侧的赋能。最近风头正劲的具身智能机器人赛道,自然成了不二之选。

今年春晚上,扭秧歌火出圈的宇树机器人已经家喻户晓。同样由其出品的宇树G1,在登上 此次科大讯飞智能交互产品升级 发布会的舞台时,一边挥舞金属手臂一边 “开口” 欢快地跟观众打招呼,再度令人惊艳了一把。其中的奥秘,竟然只藏在了机器人背后一个书包模样的盒子中。

这款属于讯飞机器人超脑平台上的全新技术方案“智能语音背包”,可以即插即用无需改造硬体,就像在U盘里藏了一位“腹语师”,随时随地接入即可打通运动控制和业务逻辑。

让机器人即时“开口”还只是前菜。宇树G1随后在现场打起了不属于秧歌舞的太极拳,做着一板一眼的动作同时,还能 插科打诨 配合 演示人员 说上几句有梗的笑料,对于活动氛围的调动不可谓不老练。这秒变社交达人的背后,就是讯飞超脑2030技术底座的发力。

2022年就推出的机器人超脑平台,本质上是为了给 机器人打造 一个能听会说、能理解会行动的 中枢系统 ,已经成为500多家机器人客户的共同选择。如今在融合了视听感知交互能力与基于大模型的机器人大脑,构建出“端-云协同”的AI架构。

在端侧,超脑平台可以提供多模态降噪、人脸识别、物体检测、端侧大模型等本地感知与计算能力;在云端,依托语音大模型与具身智能技术,就能实现“察言观色”的类人化交互与复杂任务理解。

比如在 常见 的工厂巡检场景中, 工业 机器人 需要 自动巡查设备运行状态,发现异常及时上报。而在检测设备故障、识别安全隐患的过程中,就 必须依赖 语音 、 人像、物体等 多 模态的识别、认知和判断 能力 。

再看 服务机器人领域,智元机器人旗下的远征A2人形机器人 , 在讯飞超脑的 赋能 下 摇身一变 为4S店迎宾机器人,既做到对顾客主动感知、主动迎宾,又能结合专业汽车知识库提供车型参数问询、促销活动讲解,还可以基于大模型进行趣味互动,为顾客提供具有科技感的购车和交付体验。

人形机器之外,普及更广的四轮、双足、轮式机器人等产品形态,讯飞超脑平台都提供了定制化的交互方案。而当遇到所有机器人都最怕的断网或弱网环境, 讯飞离线交互套件 也可以 一键解决,让所有交互、识别都在端侧完成 。

科大讯飞为了加速对机器人产业的赋能进程,“ 具身智能训练一体机 ”也应运而生,将数据采集、训练推理等一系列复杂过程,集成到一台机器上全部完成。

做最全面的AI

发家于语音合成技术,在“百模大战”中脱颖而出的科大讯飞,争的不是流水之先,而是滔滔不绝。被AI大模型浪潮催生出的虚拟人和智能体两大风口,同样成为其四大开发平台中的砥柱。

大会现场,讯飞开放平台总经理赵艳军通过照片和语音生成的数字分身,竟丝滑流畅地接管了舞台演示,让人感受不到一丝违和。呈现在带移动底座的55寸OLED透明屏上的数字人“小雨”,可以按照提前制作好的动线自主移动,不管是面对工作人员还是临时嘉宾,都能随机应变对答如流,近乎完美地承担了导览职责。

与电商平台上应用颇多的数字人主播不同,科大讯飞的虚拟人交互平台 依托领先的多模态感知与生成技术, 正在掀起一场 数字人构建的 “ 极简革命 ”。

输入 一句 录音 、 上传 一张 图片,用户即可 生成 专属的 数字分身 。 这种 “ 分钟级 ”的 创建 效率才能填平普通大众面前的技术鸿沟 。 也正是得益于此, 平台 上 已积累超 过 100万的声音复刻用户,超 过 10万的数字分身资产 ;还深度赋能了媒体、教育、文旅、金融、政务等千行百业,并获得了信通院L5等级认证。

面向智能体方向的星辰Agent,则是低门槛一站式的大模型精调与智能体构建平台,在全栈自研的星火大模型之外,还广泛兼容DeepSeek等业界主流的开源大模型,进一步助力企业高效构建专属大模型和智能应用。

而针对解决模型贴合场景需求的星辰MaaS,通过一站式精调工具链将行业数据转化为专属模型。在与Agent的协同下,二者可以打造出“模型精调-智能体开发-场景落地”的闭环生态。

依托于此,一系列聚焦于办公、人力、企业数字化场景的智能产品服务被开发出来。 升级后的讯飞智文从PPT工具拓展为智能文档平台 ; 讯飞绘文和讯飞绘镜则可以帮助新媒体岗位 一站式 快速完成选题、图文、视频等内容创作的 范式 ;星火纪要、星火陪练、星火快答、星火投标 、讯飞智聘 等 针对 B端 的 应用,从多个方面 全方位地 赋能企业智能化,提升运营效率。

不难发现,科大讯飞几乎没有错过任何一个AI大模型落地场景的可能性。据数据机构Xsignal奇异因子统计,仅在C端方向上,科大讯飞就覆盖了11个核心赛道,共计有27款AI应用通过APP和Web端全面铺开;在To B和To G市场上更是领跑同行,数据显示其累计中标项目已超130个,总金额突破14亿元。

从15年前业界首个语音云的发布,到AIUI、机器人超脑等平台的相继问世,科大讯飞终于在大模型时代以星火大模型为核心,将各项语音智能技术融会贯通聚沙成塔。一棵代表人机智能交互的生态大树拔地而起,这一片最全面的AI森林也愈发郁郁葱葱。

特此声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
分享至

还没有评论,快来抢沙发吧!