欢迎来到求知题库网 求知题库官网
logo
全部科目 > 大学试题 > 计算机科学 > 人工智能

单项选择题

强化学习中近端策略优化(ProximalPolicyOptimization-PPO)的目的是:()。

    A.减少学习过程中的方差
    B.加速模型的收敛速度
    C.优化策略的稳定性
    D.提高策略的探索能力

点击查看答案&解析

相关考题

微信小程序免费搜题
微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题