不久前,57岁的美国弗吉尼亚大学数学系讲席教授小野健(Ken Ono)辞去教职,加入了一家成立仅4个月的人工智能(AI)创业公司Axiom Math。公司的创始人是他曾经的学生洪乐潼,24岁。
这项由浙江大学殷清宇团队联合香港科技大学、中南大学、中国科学技术大学等多所院校共同完成的研究,发表于2025年12月29日的arXiv预印本平台(论文编号:arXiv:2512.23165v1),首次系统性地评估了12种不同的参数高效微调方法在强化学习场景下的表现。有兴趣深入了解的读者可以通过该编号查询完整论文。 当我们谈论人工智能模型训练时,就像在讨论如何培养一个天才学生。传统的训练方式好比让这 ...
人工智能领域迎来了一项重要突破。这项由浙江大学计算机科学与技术学院韩凯容、单暖桥、赵子俞等研究人员以及华为诺亚方舟实验室合作完成的研究,于2025年11月发表在人工智能顶级会议论文中,论文编号为arXiv:2511.22146v1。有兴趣深入了解的读者可以通过该编号查询完整论文。 当我们思考问题时,比如解决一道数学题,我们的大脑并不是简单地从左到右逐字逐句地处理信息。相反,我们会建立概念之间的因果 ...
研究团队的第一个重大发现就像是在烹饪比赛中发现了一个意外的获胜者。长期以来,LoRA就像是大厨们默认使用的经典调料,几乎所有人都认为它是最佳选择。然而,当比赛场地从传统烹饪(监督学习)转换到创意料理挑战(强化学习)时,情况发生了戏剧性的变化。
中国消费者报海口讯 (记者 董芳忠 )近日,在海南省海口市举办的全国信标委人工智能分委会“标准周”活动期间,国内首张大模型高阶通用能力国家标准符合性测试证书正式颁发,标志着我国大模型高阶通用能力评测实现标准化落地,为大模型产业规范化发展树立了关键里程碑。
DeepSeek的这篇论文针对这些问题提出了改进框架mHC架构。这一架构类似于给超连接的信息通道加了一套“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,使模型训练更稳定且更容易扩展,从而推动大模型底层架构的工业化落地。
新年伊始,DeepSeek发布了一项新研究,提出了一种名为mHC(流形约束超连接)的新网络架构。这项研究旨在解决传统架构在大规模模型训练中的不稳定性问题,为下一代基础架构的演进提供了新的思路。 论文《mHC: Manifold-Constrained ...
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 ...
1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。
当滑铁卢大学的研究团队宣布其最新发现时,人工智能领域迎来了一场认知革命。他们通过实验证实,让AI模型学习同类模型生成的错误推理过程,有时比学习人类专家编写的完美答案更能提升性能。这一反直觉的结论,正在重塑人们对机器学习本质的理解。
成立于2015年的贤能集团自助式仓储公司Work+Store,连续第三年获颁新加坡金字品牌奖—成名品牌,登上象征最高成就的荣誉榜(Hall of Fame)。
DeepSeek发布新论文,梁文锋参与署名。 1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三位 ...