开云体育官方网站 蚂集结团开源 Ming-flash-omni 2.0

开云体育官方网站 蚂集结团开源 Ming-flash-omni 2.0

AIPress.com.cn报说念开云体育官方网站

2月11日,蚂集结团认真开源发布全模态大模子Ming-flash-omni2.0。看成Ming-Omni系列的最新版块,该模子在视觉谈话会通、语音可控生成、图像生成与裁剪等中枢智商上完了系统性升级,在多项公开基准测试中达到开源早先水平,部分看法逾越Gemini2.5Pro。

Ming-flash-omni2.0的更新重心之一在于音频生成智商。模子支撑在消失音轨中同期生谚语音、环境音效与音乐,并允许用户通过当然谈话提醒收尾音色、语速、语调、音量、厚谊和方言等参数。阐明官方数据,模子在推理阶段完了3.1Hz的推理帧率,可生因素钟级音频内容。

在视觉智商方面,模子通过引入更大限制细粒度数据和难例探员计策,耕作对复杂对象和长尾类别的识别智商。图像生成与裁剪功能也进行了优化,支撑光影改革、场景替换、东说念主物姿态修改等操作,并强调在复杂或动态场景中的安祥性。

架构上,Ming-flash-omni2.02.0基于Ling-2.0(MoE,100B-A6B)架构探员。官方示意,该版块在更大限制数据和系统化探员优化基础上,kaiyun sports对多模态会通与生成智商进行了斡旋整合。

一、ALPD与三色激光投影仪有什么区别?哪个好?

连年来,多模态大模子安祥向斡旋架构处所发展,但在实践哄骗中,模子接续难以同期兼顾通用性与单项智商发扬。蚂蚁方面示意,Ming-omni系列历程多代迭代,从构建斡旋多模态智商底座,到扩大限制与探员优化,再到2.0版块强化单项智商发扬,安祥耕作玄虚性能。

百灵模子负责东说念主周俊示意,全模态技能的关键在于斡旋架构下的智商会通与调用效果。开源后,成就者可在消失框架下调用视觉、语音与生成智商,减少多模子串联带来的工程复杂度。

现在,Ming-flash-omni2.0的模子权重与推理代码已在HuggingFace等开源社区发布开云体育官方网站,用户也可通过蚂蚁百灵平台LingStudio进行在线体验。





Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有

sxxa-kaiyun.com 备案号 备案号: 

技术支持:®开云体育  RSS地图 HTML地图