#reinforcement learning ohne gradienten