离散变量、连续变量、铁路维护的POMDP问题中,本文提出Deep Belief Markov Model(DBMM),通过神经网络和变分推断实现模型无关的信念推断,显著提升强化学习性能。 本文提出了一种名为“Deep Belief Markov Model(DBMM)”的新模型,旨在解决部分可观测马尔可夫决策 ...