1. 一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于包括以下步骤:
1)建立飞行器飞行场景,建立符合高超声速飞行器飞行特性的环境;
2)为高超声速飞行器建立搜索策略,即在任一状态下的动作选择集;
3)为高超声速飞行器建立合理的奖励值函数,能够使飞行器在与环境交互中获得最大的累计奖励;
4)在已知起点与终点的情况下,为飞行器规划出一条能够避障的路径。
2. 根据权利要求1所述一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于,步骤1)建立符合高超声速飞行器飞行特性的环境,具体采用网格法对环境进行建模,将飞行器的巡航区域划分为n×n个网格,每个网格的长度为m或km,m的值应大于或等于飞行器的最小转弯半径R, 转弯半径由飞行器过载决定,保证飞行器正常机动。
3. 根据权利要求1所述的一种基于Q-Learning的高超声速飞行器动态路径规划方法,其特征在于,步骤2)为高超声速飞行器建立搜索策略,网格的尺寸大小符合飞行器的最小转弯半径的要求,飞行器可在它周围的8个方向自由移动,利用当前位置与目标点位置的关系对飞行器的动作进行约束,提高整个学习效率,使飞行器更快到达目的地。