Code Language C - 搜索 News

22 小时

全球最臭名昭著的论坛，发现了AI最重要的“思考”能力

APPSO 之前也报道过，过于油腻的说话风格与 RLHF（人类反馈强化学习）有关。训练时，人类评审者倾向于给听起来顺耳、令人愉快的回答打高分，模型就学会了这套讨好人的腔调。这是一个关于AI 在取悦谁的问题。

一些您可能无法访问的结果已被隐去。