Proximal Policy Optimization

GPTKB entity

Predicate	Object
gptkbp:instanceOf	gptkb:reinforcement_learning_algorithm
gptkbp:abbreviation	PPO
gptkbp:advantage	simplicity robustness sample efficiency
gptkbp:appliesTo	gptkb:game_AI robotics simulated environments
gptkbp:arXivID	1707.06347
gptkbp:author	gptkb:Filip_Wolski gptkb:Oleg_Klimov gptkb:Prafulla_Dhariwal gptkb:John_Schulman gptkb:Alec_Radford
gptkbp:category	gptkb:artificial_intelligence gptkb:machine_learning
gptkbp:developedBy	gptkb:OpenAI
gptkbp:influencedBy	gptkb:Trust_Region_Policy_Optimization
gptkbp:input	gptkb:state_order
gptkbp:introducedIn	2017
gptkbp:notablePublication	gptkb:Proximal_Policy_Optimization_Algorithms
gptkbp:openSource	gptkb:OpenAI_Baselines gptkb:Stable_Baselines gptkb:RLlib gptkb:TensorFlow_Agents PyTorch RL libraries
gptkbp:optimizedFor	clipped surrogate objective
gptkbp:output	gptkb:action
gptkbp:publishedIn	gptkb:arXiv
gptkbp:relatedTo	gptkb:Trust_Region_Policy_Optimization Actor-Critic methods
gptkbp:trainer	on-policy
gptkbp:type	policy gradient
gptkbp:usedFor	gptkb:reinforcement_learning policy optimization
gptkbp:bfsParent	gptkb:Policy_Network gptkb:Natural_Policy_Gradient gptkb:Trust_Region_Policy_Optimization gptkb:Policy_Gradient gptkb:Soft_Actor-Critic gptkb:Twin_Delayed_Deep_Deterministic_Policy_Gradient
gptkbp:bfsLayer	8
http://www.w3.org/2000/01/rdf-schema#label	Proximal Policy Optimization