强化学习（二）SARSA和Q-learning

发表于 2020-03-06 更新于 2020-03-24

综述在使用时序差分方法求强化学习的控制问题时，我们得到了下式： q_{\pi}(s,a)=q_{\pi}(s,a)+\alpha(R(s,a)+\gamma q_{\pi}(s',a')-q_{\pi}(s,a))同时我们得到一个$\epsilon$策略： \pi(a|s)=\begin{cases ...

阅读全文 »

IO模型

发表于 2020-03-05

综述进程的正常工作离不开与IO打交道，当我们需要读写文件时，需要通过IO与磁盘打交道；当我们需要与远程进程打交道时，需要通过IO与socket打交道，可以将socket看作是一个文件。在Linux中，一切皆文件，所以IO的作用非常重要。一般而言，如果一个进程需要读某个文件时，首先会系统调用询问某个文 ...

阅读全文 »

强化学习（一）动态规划、蒙特卡洛方法和时序差分

发表于 2020-03-04 更新于 2020-05-17

综述强化学习是除监督学习、非监督学习的第三种学习方式，通过使代理执行动作去影响环境，从环境得到奖励，进而不断改善自己的动作选择，使得代理可以在完成任务的同时得到最大的奖励。强化学习有以下几个基本元素：(1) 状态集合S，状态集合的每个状态是指环境的状态(2) 动作集合A，动作集合指代理可以执行的动作 ...

阅读全文 »

Map-Reduce计算原理

发表于 2020-03-03

综述在单机下统计文件内各个元素的出现次数是简单的，但是当文件占用空间很大或文件数量很多使得单机处理效率差时，如何拓展至多台机器共同解决问题，这是一个很值得研究很需要去解决的问题。在单机下很容易处理的问题，在集群下却不一定是容易的，主要包括这些问题：(1) 如何将一个大任务划分成小任务(2) 如何将小 ...

阅读全文 »

RBM-受限玻尔兹曼机

发表于 2020-03-02 更新于 2020-03-03

综述受限玻尔兹曼机（RBM）在推荐系统中有广泛的应用。在介绍RBM之前需要介绍一下玻尔兹曼机玻尔兹曼机玻尔兹曼机可以看作是一个有$N+M$个节点的全连通图，其中有$N$个节点作为显示状态$v$，而有$M$个节点作为隐藏状态$h$。玻尔兹曼机可以对特定的$v$和$h$定义一个能量函数，能量函数可以反 ...

阅读全文 »

独热编码和标签平滑

发表于 2020-03-01

独热编码独热编码是将类别特征离散化后，使用一个只有一位为1其他位全为0的向量表示类别特征。举个例子，性别特征有三个特征值：男、女、不明，使用一个维度等于3的向量表示这个特征，男性用100表示，女性用010表示，不明用001表示。为什么要使用独热编码表示类别特征而不直接使用一个离散数字表示，比如男性用 ...

阅读全文 »

Transformer原理

发表于 2020-02-29 更新于 2020-03-05

综述Transformer是一种用于序列的神经网络模型，相比起RNN和LSTM，Transformer可以解决RNN和LSTM无法完全解决的长期依赖问题。Transformer首先会将输入序列通过编码器转成高阶特征的形式，然后编码器的输出作为解码器的输入，通过解码器的解码操作得到输出序列。输入层T ...

阅读全文 »

TCP和UDP

发表于 2020-02-28

TCP/IP模型OSI模型七层从下到上分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。而在TCP/IP模型中，分别是数据链路层（物理层、数据链路层）、网络层、传输层和应用层（会话层、表示层、应用层）。TCP协议和UDP协议工作在传输层。 UDPUDP协议全称是用户数据报协议，是一种 ...

阅读全文 »

牛顿法和拟牛顿法

发表于 2020-02-27 更新于 2020-03-02

牛顿法牛顿法主要用于求零点，当函数$y=f(x)$处于$x_t$时，此时位于$(x_t,y_t)$，将$f(x)$在$x_t$处泰勒展开保留到一阶项，得到： y=f(x_t+\Delta x)=f(x_t)+f'(x_t)\Delta x对上面的式子求零点，得到： f(x_t)+f'(x_t)\De ...

阅读全文 »

贝叶斯神经网络

发表于 2020-02-26 更新于 2020-03-02

贝叶斯决策贝叶斯决策是求这样的问题： P(x|D)=\int_{\theta}P(x|\theta,D)P(\theta|D)d\theta即在已知一个数据集$D$的情况下，求数据样本$x$出现的概率$P(x|D)$。上面的式子将$P(x|D)$积分展开，$P(x|\theta,D)$表示模型参数是 ...

阅读全文 »