Hexo

  • 首页

  • 归档

强化学习(四)策略梯度

发表于 2020-03-22 更新于 2020-03-24

综述无论是SARAR,Q-learning还是DQN,都是基于值函数的模型,即模型通过数据集训练参数去近似得到值函数。基于值函数的模型在处理控制问题时,需要由值函数更新策略再由策略更新值函数。这种做法难以收敛,而且学习到的策略过于简单(根据值函数取最大值)。虽然策略最终会收敛,但是在学习过程中,并不 ...

阅读全文 »

强化学习(三)DQN

发表于 2020-03-22 更新于 2020-03-24

综述DQN是将深度神经网络学习与Q-learning相结合的一种方法。在使用Q-learning学习时,需要记录一张表,表由状态和动作两个维度组成。当状态数很大或动作数很大时,当状态和动作不是离散值而是连续值时,Q-learning的表是很难去存储Q值的。这时候就可以使用深度神经网络的学习方法,将Q ...

阅读全文 »

推荐系统之深度兴趣网络(DIN)

发表于 2020-03-21 更新于 2020-03-28

综述深度兴趣网络是阿里巴巴提出的一个深度推荐模型,旨在利用用户画像与用户历史行为去预测待测物品的匹配率。 模型结构输入层-嵌入层模型的输入有四个部分,分别是用户基本特征,用户历史行为特征,物品基本特征,其他特征。对于离散特征,一般做法是使用one-hot向量表示,one-hot向量根据一定顺序排列得 ...

阅读全文 »

推荐系统之SimRank算法

发表于 2020-03-19 更新于 2020-05-17

SimRank算法一般而言,我们可以将用户和物品看作一张二部图,用户在一侧,物品在另一侧。有一个很简单的策略,如果两个用户连接的物品越相似,则这两个用户越相似。同样的,如果两个物品连接的用户越相似,则这两个物品就越相似。也就是说相似性是可以传递的。所以可以列出式子如下: s(a,b)=\begin{ ...

阅读全文 »

推荐系统之矩阵分解

发表于 2020-03-18

综述对于推荐场景,我们总可以列出一张表,每行表示一个用户,每列表示一个物品。对于这张表,每个位置表示用户对物品的评价。一般情况下,这张表是稀疏的,如何根据这张稀疏表已有的信息去填满未知的位置是推荐系统的一个研究方向。主流的做法是利用矩阵分解,将用户物品评分矩阵分解成两个矩阵的乘积,如果这两个矩阵的乘 ...

阅读全文 »

Java之线程创建和线程池

发表于 2020-03-18

线程创建Java中有三种方式创建线程,分别为继承Thread类,实现Runnable接口和实现Callable接口。 继承Thread继承Thread类比较简单,就是定义一个类,这个类继承了Thread类,重新定义了Thread类的run方法。这种方式是最直观,在需要创建线程时,直接创建一个继承类的 ...

阅读全文 »

分布式一致性算法之PBFT

发表于 2020-03-15

CAP原则CAP是三个字母的缩小,分别表示可用性、一致性和分区容错性。可用性是说这个分布式系统能够以正常速度响应用户的请求,就像单机环境一样;一致性是说这个分布式系统对数据所有的备份时刻保持一致;分区容错性表示由于通信的一些实际因素,系统无法达到强一致性,即无法保证所有数据备份时刻保持一致。CAP原 ...

阅读全文 »

推荐系统之FM算法

发表于 2020-03-14 更新于 2020-05-17

什么是FM算法FM算法也叫因子分解机,是基于线性回归模型得来的,在线性回归模型中,我们有: y=w_0+\sum_iw_ix_i而FM算法的式子是这样的: y=w_0+\sum_iw_ix_i+\sum_i\sum_{j>i}w_{ij}x_ix_j可以看到FM算法是在线性回归的基础上,加上了对特征 ...

阅读全文 »

数据归一化和标准化

发表于 2020-03-13

什么是数据归一化和标准化数据归一化和标准化主要目的是去除量纲对模型参数的学习与分析的影响。举个例子,有两个特征,一个特征的取值范围是[0,2],另一个特征的取值范围是[0,5],在计算两个特征的距离时,第一个特征从1到2的距离从数值上是小于第二个特征从4到5的距离,但是从占比看第一个特征从1到2跨越 ...

阅读全文 »

变分自编码器(VAE)

发表于 2020-03-07

自编码器自编码器,可以看作是一个图压缩器,输入是一张图片,将这张图片通过编码器得到这张图片的中间向量,然后再通过解码器还原出原来的图片,这个中间向量就可以看作是对图片的一个压缩。自编码器可以起到去噪的效果,将输入图片加上一定的噪声,然后输出图片还原出原图片,这样训练出来的自编码器可以起到去噪效果。自 ...

阅读全文 »
1234…8

huangshh

72 日志
19 标签
© 2020 huangshh
由 Hexo 强力驱动 v3.9.0
|
主题 – NexT.Gemini v7.3.0