钱爽's Blog

每一次不一样都来自一个勇敢的开始

17.0 SimHash

算法原理 前面我们讲到,一段文字所包含的信息,就是它的信息熵。如果对这段信息进行无损压缩编码,理论上编码后的最短长度就是它的信息熵大小。如果仅仅是用来做区分,则远不需要那么长的编码,任何一段信息(文字、语音、视频、图片等),都可以被映射(Hash编码)为一个不太长的随机数,作为区别这段信息和其他信息的指纹,只要Hash算法设计得好,任何两段信息的指纹都很难重复。 SimHash是一种用来...

16.0 机器学习模型部署及在线预测

到目前为止,我们训练的传统机器学习模型都只能进行本地预测(本地调用test方法),那么怎么样把我们的模型部署到线上,然后做在线实时预测呢? 我们的模型实际上就是一个y = f(x)函数,x是特征数据,y是预测结果。我们训练模型的目的就是为了得到f(x)函数的参数; 训练完成后需要对参数进行序列化存储,生成模型文件,这一步叫做模型的导出; 模型的部署即加载模型文件并在内存组装f(...

15.0 期望最大化 & k-means聚类

算法原理 EM 期望最大化(Expectation Maximizition,EM),在前面的讨论中,我们一直假设训练样本所有属性变量的值都已被观测到,即训练样本是完整的,但是在现实应用中,往往会遇到不完整的训练样本,即我们知道有一个属性变量对模型至关重要,但是无法获得这个属性变量的值。在这种存在未观测变量(隐变量)的情形下,是否仍能对模型参数进行估计呢? EM算法是常用的在含有隐变...

14.0 条件随机场

算法原理 条件随机场(Conditional Random Field,CRF),是在给定输入的条件下,求输出变量的条件概率分布模型。通常使用最广泛的是线性链条件随机场,即通过输入序列预测输出序列(序列标注),形式仍然是对数线性模型。若令X = {x1,x2,…,xn}为观测序列,Y = {y1,y2,…,yn}为与之相应的标记序列,则条件随机场的目标是构建条件概率模型P(Y|X)。 ...

13.0 隐马尔科夫模型

算法原理 概率图模型是一类用图来表达变量之间相关关系的概率模型。马尔科夫网络假设随机过程中各个状态St的概率分布,只与他的前一个状态有关,即P(St|S1,S2,…,St-1) = P(St|St-1),所以可以认为马尔科夫网络是一种特殊的贝叶斯网络。 隐马尔科夫模型是含有隐变量的马尔科夫网络,该模型包含两种类型的变量:一种是观测变量{x1,x2,…,xn},表示第i时刻的观测值;一种是状...

12.0 最大熵模型

算法原理 最大熵模型(Max Entroy,MaxEnt),在所有满足约束条件的模型集合中,熵最大的模型是最好的模型。论及投资,人们常说不要把鸡蛋放在一个篮子里,这样分散投资可以降低风险,进而达到收益最大化,因为越平均(越分散,能保留全部的不确定性),熵越大。 下面我们引入特征函数的概念,特征函数是特征的函数式表示,跟特征一样,需要通过特征工程得到。 其实可以证明求熵的最大值等价...

11.0 支持向量机

算法原理 支持向量机(Support Vector Machine,SVM)是机器学习中的最经典也是最重要的分类方法之一。 样本空间中任一点x到超平面的距离为: 现在我们希望求解上式来得到最大间隔超平面所对应的模型:f(x) = w * x + b 下面还是通过一个具体例子感受一下线性可分支持向量机的训练过程。 核函数(kernel trick),我们在线性回归等几...

10.0 softmax回归

算法原理 softmax回归(softmax regression)可以直接支持多分类,而不用当成多个二分类处理。逻辑回归是线性回归套以Sigmoid函数,softmax回归是线性回归套以Softmax函数,即通过线性回归计算出属于每一个类的得分值score,然后用softmax函数归一化为概率。 逻辑回归中y = x * w,w是一个一维向量,softmax回归中W是一个二维矩阵(n*k...

09.0 逻辑回归

算法原理 逻辑回归(logistic regression)是机器学习中的经典分类方法。该模型在线性回归的基础上套以Sigmoid函数,将线性回归的值域范围整流到0到1之间,由于结果仍然是连续的,所以是一种回归模型,但是该模型通常用来解决分类问题,因为0到1之间的值可以认为是概率,所以如果概率大于某个阈值,就代表是正类,小于某阈值则认为是负类。 下图是Sigmoid函数的图像: 逻辑回归...

08.0 损失函数、梯度下降、最大似然估计、正则化

损失函数 所以,线性回归先假定特证满足线性关系,然后根据给定的训练数据,求出使损失函数(均方误差)最小时的参数k和b的解析解,这就是线性回归的训练过程。下面我们举个实际的例子,看看线性回归模型到底是怎样进行训练求出参数k和b的。我们假设商品的销售量和商品单价满足线性关系:y=kx+b,x为商品的单价,y代表商品的销售量。现在我们收集到的线上样本如下: ...

1 2 3 4 5 6 7

返回顶部