APPSO 之前也报道过,过于油腻的说话风格与 RLHF(人类反馈强化学习)有关。训练时,人类评审者倾向于给听起来顺耳、令人愉快的回答打高分,模型就学会了这套讨好人的腔调。这是一个关于AI 在取悦谁的问题。