腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 ...
RLVR(基于可验证奖励的强化学习)简单而粗暴:别听人的,听结果的。成为LLM的AlphaZero时刻,探索→验证→强化,还引入了全新Scaling Law 测试时计算。 (2)Vibe Coding(氛围编码)的流行:Vibe ...
当前多模态大语言模型(MLLMs)在多模态理解和推理方面取得显著进展,但其推理过程仍以文本为中心,导致在复杂、长程、视觉为核心的任务中表现欠佳。尤其是多轮视觉信息的跟踪和状态变化处理存在困难,限制了其推理的准确性和效率。 现有方法的局限 ...
扩散语言模型才是未来? 在大模型的演化史中,自回归(AutoRegressive, AR)模型曾经是无可争议的主角,它们以逐token生成的方式,构建了强大的语言理解与生成能力。 然而,这种逐字逐句的因果链条也带来了天然的瓶颈,推理速度受限,无法满足未来大规模应用 ...
Diffusion Transformers在生成高质量图像方面展现出强大的能力。然而,随着模型规模的增大,其不断增长的内存占用和推理延迟给实际部署带来了重大挑战。近期在大语言模型(LLMs)领域的研究表明,基于旋转技术能够平滑异常值并实现4比特量化,但这类方法通常 ...