GloVe模型和FastText模型

发表于 2020-02-16

综述GloVe模型和FastText模型和Word2Vec模型类似，都是为了得到词的向量。 GloVe模型GloVe模型首先定义一个窗口，然后对语料库窗口内的词统计出一个共现矩阵。对于这个共现矩阵，我们可以统计各个单词之间条件概率以及联合概率的信息。现在我们想要学习词的向量$v_i$和$v_j$使得 ...

阅读全文 »

EM算法

发表于 2020-02-15 更新于 2020-03-01

1. 什么是EM算法EM算法主要用于求解具有隐变量的最大似然问题。一般我们在求最大似然时，会有以下式子： arg\max_{\theta} \prod_{i}P(x_i|\theta)对这个式子取对数得到： arg\max_{\theta} \sum_{i}\log P(x_i|\theta)但是有 ...

阅读全文 »

机器学习之数据不平衡

发表于 2020-02-14

1. 什么是数据不平衡数据不平衡是指数据样本的分布偏向某一侧，使得一侧的数据样本数很多而另一侧数据样本数很少，形成一种不平衡。数据不平衡会导致学习出来的模型不能很好地掌握少数数据样本的规律，受到多数数据样本的“污染”。举个最简单的例子，一个二分类问题，98%的样本是一种标签而剩余2%是另一种标签，这 ...

阅读全文 »

机器学习之特征选择

发表于 2020-02-14

1. 什么是特征选择特征选择，顾名思义，就是在数据样本的一大堆特征中筛选出一些特征，用于后续的模型学习。与降维不同，特征选择只会选择特征而不会组合特征。常见的特征选择方法可以归为三大类，分别是过滤法，包裹法和嵌入法。 2. 过滤法过滤法的主要思想是对每个特征计算统计量，去掉统计量不符合阈值要求的特征 ...

阅读全文 »

红黑树，B树，B+树

发表于 2020-02-13 更新于 2020-03-01

1. 红黑树红黑树是一种平衡二叉树，相比起AVL树，红黑树在树的平衡上放松了一些约束，实际上也没有必要达到AVL树这么严格的平衡度，这会导致每次插入或删除都需要旋转一些次数才能维护。红黑树主要有以下五个性质：(1) 每个节点要么是红色，要么是黑色(2) 根节点是黑色(3) 叶节点是黑色(4) 红色节 ...

阅读全文 »

PCA-主成分分析

发表于 2020-02-13 更新于 2020-03-01

1. 什么是主成分分析主成分分析是一种数据降维技术，可以将特征从高维空间降维到低维空间，从而提高数据特征的处理效率。主成分分析的目的是找到$K$个特征，这$K$个特征是互不相关，而且要求这$K$个特征的方差尽量大。特征之间不相关保证特征之间的独立性，减少冗余信息；特征的方差尽量大则保证数据在特征上取 ...

阅读全文 »

word2vec原理

发表于 2020-02-13 更新于 2020-03-01

1. 什么是word2vecword2vec用于将词在高维稀疏空间的one-hot向量映射到低维稠密空间的向量，且要求这个向量保留尽量多的语义信息。word2vec在语料库中从词的上下文词中提取出语义信息，并作用到对该词的低维向量求解。word2vec会设置一个窗口大小，并认为窗口内的词组成窗口中心 ...

阅读全文 »

Kmeans数学原理

发表于 2020-02-12

1. 什么是KmeansKmeans是一个聚类算法，设定一个K，Kmeans算法可以将数据样本划分为K类。 2. Kmeans算法流程(1) 每个样本对应一个坐标，按照某种初始化方法初始化K个中心点。(2) 每个样本计算到K个中心点的距离，选择距离最小的点，假设是第$i$号中心点，将该样本归类到$i ...

阅读全文 »

进程与线程

发表于 2020-02-12 更新于 2020-03-01

1. 什么是进程，什么是线程进程是程序在计算机内运行的一个实体，而线程是进程在执行时的一个实体。如果把程序看作是食谱，那么进程运行过程就可以看作是厨师做菜的过程，厨师做菜时使用的工具和食材可以看作是进程占用的系统资源。有时候一道菜并不是由一个厨师完成的，而是由多个厨师合作完成的。这些厨师在合作时，有 ...

阅读全文 »

CRF-条件随机场

发表于 2020-02-12 更新于 2020-03-01

1. 什么是条件随机场NLP中CRF模型可以简单看作是线性链条件随机场，是一种判别模型，是无向概率图模型，有下图形式：有向图中每条有向边$A->B$表示随机变量$B$依赖于随机变量$A$，有向边表示$P(B|A)$，所以有$P(A,B)=P(A)P(B|A)$。但在无向图中，我们不知道哪个随 ...

阅读全文 »