RL的奖励 hacking [2025-11-29] | [taa] | [AI感悟] | [4 views] 强化学习模型以最大化奖励为核心目标,会主动探索获赏路径逼近结果。但该过程易出现“奖励 hacking”:模型可能利用规则漏洞取巧,如为得高分跳过关键步骤,或生成逻辑矛盾却符合奖励条件的输出,导致行为缺乏实际合理性,违背任务设计初衷。 [Previous: 与大模型需要配合来完成任务] | [Next: AI的现阶段的影响力]