综述无论是SARAR,Q-learning还是DQN,都是基于值函数的模型,即模型通过数据集训练参数去近似得到值函数。基于值函数的模型在处理控制问题时,需要由值函数更新策略再由策略更新值函数。这种做法难以收敛,而且学习到的策略过于简单(根据值函数取最大值)。虽然策略最终会收敛,但是在学习过程中,并不 ...
强化学习(三)DQN
综述DQN是将深度神经网络学习与Q-learning相结合的一种方法。在使用Q-learning学习时,需要记录一张表,表由状态和动作两个维度组成。当状态数很大或动作数很大时,当状态和动作不是离散值而是连续值时,Q-learning的表是很难去存储Q值的。这时候就可以使用深度神经网络的学习方法,将Q ...
推荐系统之深度兴趣网络(DIN)
综述深度兴趣网络是阿里巴巴提出的一个深度推荐模型,旨在利用用户画像与用户历史行为去预测待测物品的匹配率。 模型结构输入层-嵌入层模型的输入有四个部分,分别是用户基本特征,用户历史行为特征,物品基本特征,其他特征。对于离散特征,一般做法是使用one-hot向量表示,one-hot向量根据一定顺序排列得 ...
推荐系统之SimRank算法
SimRank算法一般而言,我们可以将用户和物品看作一张二部图,用户在一侧,物品在另一侧。有一个很简单的策略,如果两个用户连接的物品越相似,则这两个用户越相似。同样的,如果两个物品连接的用户越相似,则这两个物品就越相似。也就是说相似性是可以传递的。所以可以列出式子如下: s(a,b)=\begin{ ...
Java之线程创建和线程池
线程创建Java中有三种方式创建线程,分别为继承Thread类,实现Runnable接口和实现Callable接口。 继承Thread继承Thread类比较简单,就是定义一个类,这个类继承了Thread类,重新定义了Thread类的run方法。这种方式是最直观,在需要创建线程时,直接创建一个继承类的 ...
分布式一致性算法之PBFT
CAP原则CAP是三个字母的缩小,分别表示可用性、一致性和分区容错性。可用性是说这个分布式系统能够以正常速度响应用户的请求,就像单机环境一样;一致性是说这个分布式系统对数据所有的备份时刻保持一致;分区容错性表示由于通信的一些实际因素,系统无法达到强一致性,即无法保证所有数据备份时刻保持一致。CAP原 ...
变分自编码器(VAE)
自编码器自编码器,可以看作是一个图压缩器,输入是一张图片,将这张图片通过编码器得到这张图片的中间向量,然后再通过解码器还原出原来的图片,这个中间向量就可以看作是对图片的一个压缩。自编码器可以起到去噪的效果,将输入图片加上一定的噪声,然后输出图片还原出原图片,这样训练出来的自编码器可以起到去噪效果。自 ...