虽然谷歌未公开细节,但业界推测Gemini 3 Flash也是一种高度复杂的混合架构,可能在底层使用Infini-attention处理超长历史,在顶层使用标准注意力进行逻辑推理,并结合MoE(混合专家模型)来进一步降低计算成本。