综述在使用时序差分方法求强化学习的控制问题时,我们得到了下式: q_{\pi}(s,a)=q_{\pi}(s,a)+\alpha(R(s,a)+\gamma q_{\pi}(s',a')-q_{\pi}(s,a))同时我们得到一个$\epsilon$策略: \pi(a|s)=\begin{cases ...
强化学习(一)动态规划、蒙特卡洛方法和时序差分
综述强化学习是除监督学习、非监督学习的第三种学习方式,通过使代理执行动作去影响环境,从环境得到奖励,进而不断改善自己的动作选择,使得代理可以在完成任务的同时得到最大的奖励。强化学习有以下几个基本元素:(1) 状态集合S,状态集合的每个状态是指环境的状态(2) 动作集合A,动作集合指代理可以执行的动作 ...
Map-Reduce计算原理
综述在单机下统计文件内各个元素的出现次数是简单的,但是当文件占用空间很大或文件数量很多使得单机处理效率差时,如何拓展至多台机器共同解决问题,这是一个很值得研究很需要去解决的问题。在单机下很容易处理的问题,在集群下却不一定是容易的,主要包括这些问题:(1) 如何将一个大任务划分成小任务(2) 如何将小 ...
RBM-受限玻尔兹曼机
综述受限玻尔兹曼机(RBM)在推荐系统中有广泛的应用。在介绍RBM之前需要介绍一下玻尔兹曼机 玻尔兹曼机玻尔兹曼机可以看作是一个有$N+M$个节点的全连通图,其中有$N$个节点作为显示状态$v$,而有$M$个节点作为隐藏状态$h$。玻尔兹曼机可以对特定的$v$和$h$定义一个能量函数,能量函数可以反 ...
Transformer原理
综述Transformer是一种用于序列的神经网络模型,相比起RNN和LSTM,Transformer可以解决RNN和LSTM无法完全解决的长期依赖问题。Transformer首先会将输入序列通过编码器转成高阶特征的形式,然后编码器的输出作为解码器的输入,通过解码器的解码操作得到输出序列。 输入层T ...