最开始公布的测试成绩相当亮眼,在衡量真实软件工程能力的SWE-Bench Verified测试里,准确率达到了81.4%,直接超过了Anthropic公司的Claude Sonnet ...