step()方法,可以基于一个举措降级环境的形态。举措用整数示意:0示意持有,1示意购置,2示意发售。假设代理人选择买入,股票的收盘价将被参与到头寸列表中。一旦经纪人选择卖出,该方法计算每个未平仓头寸的利润或损失,并相应地降级利润变量。而后,一切未平仓头寸被平仓。依据卖出行为中发生的利润或损失,鼓励被增添到- 1,0或1。
© 版权声明
step()方法,可以基于一个举措降级环境的形态。举措用整数示意:0示意持有,1示意购置,2示意发售。假设代理人选择买入,股票的收盘价将被参与到头寸列表中。一旦经纪人选择卖出,该方法计算每个未平仓头寸的利润或损失,并相应地降级利润变量。而后,一切未平仓头寸被平仓。依据卖出行为中发生的利润或损失,鼓励被增添到- 1,0或1。