知识蒸馏与模型压缩

发表于 2020-02-25 更新于 2020-03-05

知识蒸馏知识蒸馏的作用是使用小网络使得小网络的性能和大网络差不多，从而实现大网络的模型压缩。将大网络压缩成小网络有以下步骤：(1) 训练大网络(2) 将训练好的大网络的输出logit，使用一个温度值$T$放缩，得到$\frac{1}{T}$logit，将放缩后的logit经过softmax层，得到s ...

阅读全文 »

MiniMax和MCTS

发表于 2020-02-24 更新于 2020-03-02

极小极大搜索（MiniMax）极小极大搜索的算法原理很简单，主要基于以下两个思想：(1) 轮到我方选择局面，选择最有利于我方的局面(2) 轮到敌方选择局面，选择最不利于我方的局面极小极大搜索需要有一个指标，用来衡量局面对我方的有利程度，值越大越有利。假设搜索树的根节点是我方选择局面，根节点在第0层 ...

阅读全文 »

死锁

发表于 2020-02-23 更新于 2020-03-02

什么是死锁死锁是指不同进程或线程在申请系统资源时陷入僵局，形成你在我等我释放资源我在等你释放资源的状态。构成死锁的原因构成死锁有以下两个原因：(1) 进程在申请资源时，若资源不足，则进程会进入阻塞状态，直到有足够的资源，此时进程会被唤醒；在进程阻塞等待期间，进程不会释放已占有的资源。(2) 多个进 ...

阅读全文 »

变分推断

发表于 2020-02-22 更新于 2020-03-02

变分推断在使用EM算法求极大似然时，有以下步骤： \ln P(x|\theta)=\ln\sum_{z}P(x,z|\theta)=\ln\sum_{z}Q(z)\frac{P(x,z|\theta)}{Q(z)}\ge\sum_{z}Q(z)\ln\frac{P(x,z|\theta)}{Q(z) ...

阅读全文 »

BN和Dropout

发表于 2020-02-21 更新于 2020-03-02

BN在使用神经网络训练数据，常常使用批梯度下降的优化方法。这种优化方法相比起全梯度下降方法有一个问题，就是收敛速度慢，因为每一批数据的分布与全部数据的分布存在着不一致，且每一批数据的分布是变化的，这使得神经网络需要不断根据输入分布的不同调整权重去适应不同的输入分布。然后，神经网络层与层之间的联系是复 ...

阅读全文 »

RNN和LSTM

发表于 2020-02-21 更新于 2020-03-01

综述RNN和LSTM是一类神经网络，可以有效地处理序列输入，完成各种关于序列的预测任务。 RNN假设输入样本有形式$x_1,x_2,…,x_t$，其中$x_i$是序列位置$i$的输入，一般是向量形式。RNN有以下的计算形式： h_i=g(Ux_i+Wh_{i-1}+b)y_i=f(Vh_i+c)$g ...

阅读全文 »

MCMC（马尔可夫链蒙特卡洛方法）和吉布斯采样

发表于 2020-02-19 更新于 2020-03-01

综述采样方法有什么用？采样方法可以帮助我们从已知分布中采样样本，也可以帮助我们去近似未知分布。均匀分布采样如果我们想从一个均匀分布采样样本，那么这很简单，可以使用下式采集样本： x_{t+1}=a(x_t+c)\ mod\ m这个式子表示从$[0,m-1]$中等概率采样。一般会要求$m$是一个质数 ...

阅读全文 »

LDA降维原理

发表于 2020-02-18 更新于 2020-03-01

1. 什么是LDALDA和PCA一样，是一种降维技术。不同的是，PCA可以用于无监督学习，通过最大化特征方差构造新特征。而LDA则是用于监督学习，要求数据有标签，通过最大化类间方差和最小化类内方差构造新特征。 2. 怎么求解LDALDA降维目标是构造一个新特征，使得每个类别在新特征下的方差最大，同时 ...

阅读全文 »

Transformer-XL和XL-net

发表于 2020-02-17

Transformer-XLTransformer-XL是针对Transformer不能处理长序列而设计的。Transformer最多只能处理长度为512的序列，当序列超过512时，Transformer会使用步长为1长度为512的滑动窗口，Transformer会在每个窗口内单独训练。具体做法是在 ...

阅读全文 »

ELMo，GPT和Bert

发表于 2020-02-16

综述ELMo，GPT，Bert都是NLP任务中的预训练模型，可以根据语料的上下文动态地调整词向量，不再像是在Word2Vec，GloVe，fastText这些预训练模型中，一旦确定了一个词的向量便不会再变。举个简单的例子，apple可以有两种意思，一个意思是水果，另一个意思是公司。如果使用Word2 ...

阅读全文 »