Q-Learning 策略学习

基于13个条件的强化学习，自动发现最优交易策略

训练参数

开始日期

结束日期

训练轮数 (Episodes)

学习率 (α)

折扣因子 (γ)

ε 起始

ε 终止

ε 衰减轮数

固定手数

RV阈值

状态空间 (1215个状态)

VCR方向: 正/负/中性 (3)

Fib位置: 5种位置 (5)

RV水平: 低/中/高 (3)

融资趋势: 增/减/平 (3)

跳空: 高开/低开/无 (3)

反转K线: 涨/跌/无 (3)

动作空间 (13个动作)

方向: 买Call/卖Call/买Put/卖Put/观望

行权价: ATM/OTM-1(近Fib)/OTM-2(远Fib)

请配置参数并开始训练

Q-Learning将在历史数据上反复训练，学习最优交易策略