单项选择题
在强化学习中,什么是“动态规划”(DynamicProgramming)()?
A.一种用于优化策略的方法
B.一种用于计算状态值的方法
C.一种用于选择动作的规则
D.一种用于表示环境模型的数据结构
点击查看答案&解析
相关考题
-
单项选择题
在强化学习中,什么是“马尔可夫性质”()?
A.智能体可以随时选择任何动作
B.环境的动态会随时间改变
C.下一个状态只取决于当前状态和采取的动作
D.智能体可以看到完整的状态空间 -
单项选择题
Mixup 数据增广的关键点是什么()?
A.图像与图像叠加
B.样本与样本叠加
C.特征与特征叠加
D.标签与标签叠加 -
单项选择题
强化学习算法中,用于优化策略的一种方法是:()。
A.监督学习
B.无监督学习
C.半监督学习
D.策略梯度
