新闻中心

News

公司动态 新冠相关 信息公示

米兰官网-观棋学下棋,它以职业5段实力击败人类对手—新闻—科学网

2026-04-25 03:43:00 999+ 公司动态

     

于围棋的黑白世界里,一场极具倾覆性的较劲正于北京交通年夜学计较机科学与技能学院试验室上演。屏幕上,黑白棋子瓜代落子,执黑的AI全程未借助任何语言指令,仅凭不雅看数万局妙手对于战视频,便自立贯通了围棋法则,终极以职业5段的实力击败人类敌手。

这场使人赞叹的“胜利”,恰是北京交年夜与豆包年夜模子团队结合研发的视频天生试验模子VideoWorld的一次出色表态。

课题组切磋VideoWorld模子研发。北京交通年夜学供图

?

AI初次摆脱“文字镣铐”

传统AI模子犹如依靠辞书学步的孩童,必需借助语言标签或者奖励机制才能理解世界。以教会AI打领结为例,需要将这一动作过细拆解为“左手持左侧,右手持右侧”等文字指令。面临繁杂使命时,语言描写的局限性往往成为难以超越的障碍,致使AI于履行使命时力有未逮。

VideoWorld的呈现为视觉智能推理研究带来新的思绪。该模子仅依赖视频数据,就能让呆板自立进修并把握推理、计划及决议计划等繁杂能力。差别在传统方式,它无需依靠强化进修中常见的搜刮算法或者奖励机制,于业内初次实现了不依靠语言模子的世界认知。

“咱们的灵感源在天然界。”VideoWorld项目卖力人、北京交通年夜学计较机科学与技能学院传授魏云超先容,“年夜猩猩经由过程不雅察成年同类寻食,灵长类动物经由过程模拟社交举动获取保存技术,可见视觉才是生物认知世界的焦点”。基在这一理念,团队开发出潜于动态模子,将视频帧间的动态变化压缩为高效特性。这使患上AI可以或许犹如人类婴儿一般,经由过程“不雅察、模拟、实践”的轮回历程,把握繁杂技术,年夜幅晋升进修常识的效率与效果。

试验成果使人瞩目。仅有300M参数的VideoWorld,于围棋使命中到达职业5段程度;于呆板人节制场景里,乐成完成机械臂操作、物品分拣等使命,揭示出优良的泛化能力。

一场“反潮水”的科研突围

于年夜语言模子主导的AI 范畴,VideoWorld的降生可谓“逆向突围”。魏云超坦言:“当大都三木SEO-团队于语言模子的赛道上奋力奔驰时,咱们选择回归视觉素质,摸索视频天生模子处置惩罚繁杂推理使命的可能性。”

这一选择源在团队对于行业痛点的深刻洞察:语言难以涵盖实际世界的海量信息,而视频作为人类获守信息的重要载体,蕴含着更为富厚的常识。

然而,研发之路充满荆棘。魏云超坦言,起首,视频天生模子处置惩罚繁杂推理使命的可行性尚无先例,缺少可借鉴的要领;其次,基线模子的机能缺陷难以精准归因;此外,方针场景缺少公然可用的试验数据,团队需要从无标签视频中提取有用特性,同时避免过分拟合。

确定试验情况是第一步。颠末团队深切会商,终极选择棋类游戏作为试验场景,因其于人工智能范畴已经有广泛运用基础。

确定试验情况后,团队最先着手制订技能方案。首要事情是选择严谨的基线要领,并确定适合的机能评估指标。受年夜语言模子乐成经验开导,项目组决议采用近似语言模子的“下一标志猜测”方式练习模子。

然而于基线模子的练习及评估历程中,团队发明了许多堵点问题,项目一度堕入阻滞状况。

随后的几个月里,团队提出了多种改良方案。颠末重复测验考试与总结,发明有用压缩视频中的动态变化是晋升天生模子推理能力的要害,这一发明终极确立了VideoWorld 的技能线路:潜于动态模子经由过程动态特性压缩与时空瓜葛建模,将视频进修效率晋升40%,并为模子可注释性斥地了新路径。

“从2024年2月项目启动到2025年2月论文被顶级集会IEEE国际计较机视觉与模式辨认集会CVPR吸收,这一年里,咱们研究孕育发生了约10TB的事情数据与模子文件,验证明验次数超1千次,仅围棋试验就迭代了上百种模子架构,论文从初稿到定稿修改了几十个版本。”项目构成员、VideoWorld论文第一作者、北京交通年夜学计较机学院博士生任中伟回忆道。

于一次次的掉败与测验考试中,任中伟也深刻熟悉到“科研冲破源在连续迭代,前沿范畴摸索无现成路径,每一一次掉败都是乐成的基石,需连结耐烦与韧性,造就自力思索与自立验证能力,学会体系性阐发问题素质”,这些名贵经验成为他将来科研生活生计的主要财富。

下一阶段,理解诙谐或者隐喻

于AI进修的广漠边境中,VideoWorld正斥地着怪异的摸索路径。魏云超先容道,该模子致力在从无标签视频中挖掘常识,实现从特定使命法则到高级推理、计划能力的超过性进修。

与强化进修、监视进修及基在文本的进修等传统要领比拟,VideoWorld揭示出三年夜显著上风:其一,依附同一的视觉暗示,它对于各种使命及交互界面揭示出更强的泛化能力,可以或许于差别场景中矫捷运用所学常识;其二,摒弃了繁琐的手动标注历程,极年夜减轻了数据预处置惩罚的承担,让研究职员患上以将更多精神聚焦在焦点算法研发;其三,相较在依靠文本描写的进修方式,VideoWorld可以或许捕获到更为富厚、立体的实际世界信息,让AI认知更切近人类感知世界的真实维度。

今朝,VideoWorld的代码、数据与模子已经于顶级集会IEEE国际计较机视觉与模式辨认集会CVPR 2025上发布并全数开源,于学界激发强烈热闹会商。“虽然VideoWorld证实了纯视觉认知的可行性,但它今朝仍处在观点验证阶段。”魏云超夸大,“论文被吸收后,咱们已经经最先下一阶段的研究。咱们正于摸索怎样用VideoWorld的思绪去解决越发现实且繁杂的问题,好比经由过程视频进修烹调、维修,甚至理解诙谐或者隐喻等”。

从依靠“文字手杖”到拥有“视觉之眼”,VideoWorld为AI认知范式注入了新动力。正如团队于论文中所写:“当呆板学会用眼睛‘浏览’世界,也许离真实的通用智能,又近了一步。”

版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请于正文上方注明来历及作者,且不患上对于内容作本色性改动;微信公家号、头条号等新媒体平台,转载请接洽授权。邮箱:shouquan@stimes.cn。-米兰官网