(网经社讯)阿里云近日发布了多模态交互开发套件,旨在将旗下通义系列大模型的能力,更便捷地集成到各类硬件终端中。该套件集成了千问、万相、百聆三款基础大模型,并预置了覆盖生活、工作、娱乐、教育等多个场景的十余款智能体(Agent)和工具(MCP),可应用于AI眼镜、学习机、陪伴玩具、智能机器人等设备。
据网经社云计算台(CC.100EC.CN)了解,该套件的推出,源于行业对硬件设备智能化提升的需求。目前,仅靠基础大模型难以同时满足硬件对低成本、低时延、功能丰富及高质量效果的综合性要求。阿里云此套件意在为硬件企业和解决方案商提供一个开发门槛较低、响应速度快、场景覆盖面广的平台。
在技术层面,该套件适配了30多款主流的ARM、RISC-V和MIPS架构终端芯片,以满足市面上大多数硬件设备的快速接入需求。阿里云表示,未来通义大模型将与玄铁RISC-V进行软硬全链路的协同优化,以实现模型在RISC-V架构上的高效部署和推理。
在模型优化方面,除通义模型家族外,阿里云还针对多模态交互场景推出了专用模型,支持全双工语音、视频、图文等交互方式,端到端语音交互时延可低至1秒,视频交互时延可低至1.5秒。
该套件还接入了阿里云的百炼平台生态,用户可添加其他开发者提供的工具或智能体模板,并通过A2A协议兼容第三方智能体,以扩展应用能力边界。现场展示的应用方案包括,在AI眼镜场景中,可实现同声传译、拍照翻译等功能;在家庭陪伴机器人场景中,可实现实时监测异常、视频内容查找定位以及与机器人对话控制设备等。
根据国际研究机构Gartner发布的生成式AI(GenAI)技术创新指南报告,阿里云在GenAI云基础设施、GenAI工程、GenAI模型及AI知识管理应用四大维度均位列“新兴领导者”象限,是入选全部四项的亚太唯一厂商。


































