可得国际教育资讯
Insight · 通用资讯学生项目介绍

Ricky:基于强化学习的物理推理智能体策略优化与决策机制研究

Research on Strategy Optimization and Decision-Making Mechanisms for Reinforcement Learning-Based Physical Reasoning Agents

可得未来
This is for the first pic of the video

项目名称:基于强化学习的物理推理智能体策略优化与决策机制研究

Research on Strategy Optimization and Decision-Making Mechanisms for Reinforcement Learning-Based Physical Reasoning Agents

本研究以《愤怒的小鸟》类物理益智游戏为实验平台,探究强化学习智能体在复杂物理推理与连续决策任务中的策略优化机制。研究基于 PyGame 与 Pymunk 构建可控物理仿真环境,并采用近端策略优化算法训练智能体完成发射角度、力度与目标选择等决策任务。实验结果表明,PPO 智能体在标准关卡中取得了超过 90% 的通关率,并表现出对弹道轨迹、结构支撑点、风力扰动和材质差异等关键物理因素的隐式建模能力。通过策略可视化、人机对比和消融实验,研究进一步揭示了智能体偏好高角度、高力度发射策略,并在部分任务中展现出高于人类玩家的得分效率与策略稳定性。本研究验证了深度强化学习在物理推理任务中的有效性,并为可解释强化学习和游戏化 AI 教育提供了参考。

此项目获得2026上中杯一等奖,并参与2026年丘成桐比赛,比赛结果将于2026年12月初公布


Ricky:基于强化学习的物理推理智能体策略优化与决策机制研究 | 可得国际教育 | 可得国际教育