季节悄然更迭,风越过北纬1°,捎来311项目学子的好消息:
今年8月刚进入新国大攻读硕士的王则清与郑博文,基于在新国大重庆研究院期间的毕业设计,合作完成的论文,近日被AI领域的国际顶会AAAI 2026正式接收。
其实,这并非两人的名字首次“同框”。两年前,他们代表各自的母校:西安电子科技大学和华中科技大学,分别获得同一赛事不同赛区的省一等奖。2024年9月,怀揣着“提前接触新国大一流的师资,提早适应国际化科研环境”的相似期待,他们不约而同地加入了重庆研究院的311项目。
故事就此开启。
(1+1>2)
来到重庆后,两人正式组队开展毕业设计项目:一个专注模型设计,一个负责实验测试。两条“平行线”,慢慢拧成一股绳。
他们的研究,试图解决扩散模型在长视频生成中的效率与一致性瓶颈。
在AI生成的过程中,与生成一张静态图片不同,生成分钟级的视频,意味着至少数千帧画面的叠加。时间越长,变量越多。在实验中,他们遇上了一个棘手的问题——全局一致性:生成的视频会在时间轴上发生不稳定的漂移和突变,比如人物的衣服突然换色、背景纹理瞬间消失。于是,他们尝试增加相邻视频帧的拼接,但这不仅导致计算效率显著降低,一致性仍然难以保障。
研究的突破,源自与导师和团队的一次关键讨论:“不要只盯着结果修补,要看源头。”扩散模型的视频生成始于随机噪声逐步去噪,如果初始噪声缺乏全局结构或一致性,后续的降噪过程就注定无法从根本上保证稳定。思路打开,他们立刻调整策略,不再只是“缝补”,而是从底层的噪声初始化机制入手,通过设计一种新的噪声初始化方式,完美解决长视频的全局一致性关键问题。
最终,他们的研究提出了一种将序列并行和流水线并行巧妙结合的“双重并行性算法”,不仅极大地加快了长视频的生成速度,也显著地降低了内存开销。
算法通了,两人的默契也打通了。
关于这段从研究院开始的经历,王则清感受到了自己维度的升级:
在研究院的一年,视野与本科大不相同,无论是更前沿的方向、更充沛的算力资源支撑,还是与导师及团队伙伴更深度的交流,都让我真正触摸到了更能影响未来的技术脉搏。
郑博文则把它形容为一次“抢跑”:
很多同学在大四容易陷入时间空窗,311项目让我提前一年深度对接了新国大的导师。广阔的学术平台与开放的资源体系,提供了远超毕业设计本身的成长空间,将本科常见的毕业设计由学术任务转化为系统的项目科研实践。我也得以基于自身兴趣自由拓展合作方向,提前适应高水平科研的思维模式与工作节奏,参与更多前沿科研项目。
自由探索的氛围,专业及时的指导,让1+1释放出远大于2的能量。
(不止是他们)
类似的科研成长,在311项目中并非个例。
目前在新国大攻读硕士的其他学子,也陆续传来喜讯:2024届胡宇佳、王诗萱,均以第一作者身份,在机器学习与人工智能领域顶会NeurIPS发表论文……
从0到1
王诗萱:Machine Unlearning in 3D Generation: A Perspective-Coherent Acceleration Framework
王诗萱的研究围绕当前人工智能领域备受关注的三维生成模型,提出一种视角一致的跳步加速机制与 Fake Score Network 定向遗忘策略,在典型的3D生成模型上取得约 30% 的加速效果,同时实现真正意义上的选择性遗忘。
从该方向几乎零基础起步,到反复实验、推翻、重建,再到第一次面对审稿与 rebuttal的“严苛洗礼”,她说:
“科研是在混乱中寻找秩序。我从小白坚持下来,学会了如何系统性地分析问题、如何设计和验证一个新的方法、如何高效地撰写与修改论文……每一步都离不开新国大导师的学术指导和博士师姐在方法、实验和论文写作上地耐心帮助。
从萌芽到突破
胡宇佳:Image Editing As Programs with Diffusion Models
胡宇佳的研究聚焦于指令驱动的图像编辑,通过提出编辑任务的“程序化分解”范式,将CoT与图像编辑任务有机结合,有效解决了现有DiT架构在结构不一致任务中的性能瓶颈。
从在重庆研究院获得“优秀毕业设计奖”,到在新国大继续跟随导师深耕研究,她的科研之路愈发稳健:
“科研是一场‘守得云开见月明’的坚持。硕士阶段,我先后完成了两篇学术论文。第一篇是我首次独立主导完成的成果,承载了我从科研新手到逐步入门的所有摸索,虽遗憾却珍贵;积累经验后,我在第二篇论文的研究中得心应手了很多,最终成功被录用。”
或许,科研的动人之处
远不仅是屏幕上弹出“Accepted”时的瞬间
每一次从0到1的突破, 1+1>2的化学反应
都是学子们迈向未来时
写给自己的、最珍贵的“接收”