多项选择题

A.奖励函数的设计
B.状态空间的大小
C.策略的选择
D.训练轮次的数量