RL的奖励 hacking

强化学习模型以最大化奖励为核心目标，会主动探索获赏路径逼近结果。但该过程易出现“奖励 hacking”：模型可能利用规则漏洞取巧，如为得高分跳过关键步骤，或生成逻辑矛盾却符合奖励条件的输出，导致行为缺乏实际合理性，违背任务设计初衷。