多项选择题

A.状态表示
B.奖励函数
C.探索策略
D.学习率