Rl on knowledged.to

Rl on knowledged.tohttps://knowledged.to/tags/rl/Recent content in Rl on knowledged.toHugoen-usTue, 19 May 2026 22:49:14 +0530PPO — Proximal Policy Optimizationhttps://knowledged.to/notes/ml/ppo-proximal-policy-optimization/Tue, 19 May 2026 17:18:44 +0000https://knowledged.to/notes/ml/ppo-proximal-policy-optimization/Overview of PPO, the clipped policy-gradient RL algorithm used in RLHF for InstructGPT and original ChatGPT.GRPO — Group Relative Policy Optimizationhttps://knowledged.to/notes/ml/grpo-group-relative-policy-optimization/Tue, 19 May 2026 17:17:58 +0000https://knowledged.to/notes/ml/grpo-group-relative-policy-optimization/Critic-free RL algorithm that replaces PPO's value model with group-relative rewards for LLM fine-tuning.