综述GloVe模型和FastText模型和Word2Vec模型类似,都是为了得到词的向量。 GloVe模型GloVe模型首先定义一个窗口,然后对语料库窗口内的词统计出一个共现矩阵。对于这个共现矩阵,我们可以统计各个单词之间条件概率以及联合概率的信息。现在我们想要学习词的向量$v_i$和$v_j$使得 ...
机器学习之数据不平衡
1. 什么是数据不平衡数据不平衡是指数据样本的分布偏向某一侧,使得一侧的数据样本数很多而另一侧数据样本数很少,形成一种不平衡。数据不平衡会导致学习出来的模型不能很好地掌握少数数据样本的规律,受到多数数据样本的“污染”。举个最简单的例子,一个二分类问题,98%的样本是一种标签而剩余2%是另一种标签,这 ...
红黑树,B树,B+树
1. 红黑树红黑树是一种平衡二叉树,相比起AVL树,红黑树在树的平衡上放松了一些约束,实际上也没有必要达到AVL树这么严格的平衡度,这会导致每次插入或删除都需要旋转一些次数才能维护。红黑树主要有以下五个性质:(1) 每个节点要么是红色,要么是黑色(2) 根节点是黑色(3) 叶节点是黑色(4) 红色节 ...
word2vec原理
1. 什么是word2vecword2vec用于将词在高维稀疏空间的one-hot向量映射到低维稠密空间的向量,且要求这个向量保留尽量多的语义信息。word2vec在语料库中从词的上下文词中提取出语义信息,并作用到对该词的低维向量求解。word2vec会设置一个窗口大小,并认为窗口内的词组成窗口中心 ...
Kmeans数学原理
1. 什么是KmeansKmeans是一个聚类算法,设定一个K,Kmeans算法可以将数据样本划分为K类。 2. Kmeans算法流程(1) 每个样本对应一个坐标,按照某种初始化方法初始化K个中心点。(2) 每个样本计算到K个中心点的距离,选择距离最小的点,假设是第$i$号中心点,将该样本归类到$i ...